Apache Hadoop – manipulacja i transformacja danych
Opis
Szkolenie zagłębia się w praktyczne aspekty przetwarzania i transformacji danych w ekosystemie Apache Hadoop. Program został zaprojektowany tak, aby uczestnicy zrozumieli nie tylko techniczne aspekty manipulacji danymi, ale również poznali zasady projektowania efektywnych procesów przetwarzania. Warsztaty praktyczne stanowią znaczącą część zajęć, podczas których uczestnicy samodzielnie implementują rozwiązania oparte na rzeczywistych przypadkach użycia. Metodyka nauczania opiera się na stopniowym wprowadzaniu coraz bardziej zaawansowanych koncepcji, zawsze w kontekście praktycznych zastosowań.
Profil uczestnika
- Analitycy danych pracujący z wielkoskalowymi zbiorami
- Inżynierowie danych odpowiedzialni za przetwarzanie
- Programiści aplikacji Big Data
- Specjaliści ETL migrujący do środowiska Hadoop
- Architekci rozwiązań analitycznych
- Data Scientists potrzebujący głębszej wiedzy technicznej
- Deweloperzy systemów przetwarzania danych
- Osoby odpowiedzialne za przygotowanie danych do analiz
Agenda
- Podstawy przetwarzania danych w Hadoop
- Architektura systemu przetwarzania
- Modele przepływu danych
- Formaty przechowywania danych
- Strategie optymalizacji
- Transformacje i agregacje
- Projektowanie procesów ETL
- Techniki agregacji danych
- Przetwarzanie strumieniowe
- Obsługa danych nieustrukturyzowanych
- Zaawansowane operacje na danych
- Łączenie zbiorów danych
- Deduplikacja i czyszczenie
- Transformacje złożone
- Walidacja i kontrola jakości
- Optymalizacja i najlepsze praktyki
- Techniki poprawy wydajności
- Zarządzanie zasobami
- Monitorowanie procesów
- Rozwiązywanie problemów wydajnościowych
Korzyści
Uczestnik rozwinie głębokie zrozumienie mechanizmów przetwarzania danych w środowisku Hadoop. Zdobędzie praktyczną wiedzę pozwalającą na projektowanie efektywnych procesów transformacji danych o dużej skali. Nauczy się implementować zaawansowane operacje przetwarzania z wykorzystaniem najlepszych praktyk i wzorców projektowych. Będzie potrafił optymalizować procesy przetwarzania pod kątem wydajności i wykorzystania zasobów. Rozwinie umiejętność rozwiązywania złożonych problemów związanych z manipulacją danymi w środowisku rozproszonym. Zdobędzie doświadczenie w projektowaniu skalowalnych rozwiązań ETL w ekosystemie Hadoop.
Wymagane przygotowanie uczestników
- Podstawowa znajomość SQL i przetwarzania danych
- Doświadczenie w programowaniu w dowolnym języku
- Rozumienie podstawowych koncepcji Hadoop
- Znajomość podstaw analizy danych
Zagadnienia
- Architektura przetwarzania w Hadoop
- Modele przepływu danych
- Transformacje ETL
- Agregacje danych
- Przetwarzanie strumieniowe
- Czyszczenie danych
- Łączenie zbiorów
- Optymalizacja wydajności
- Monitorowanie procesów
- Kontrola jakości
- Zarządzanie zasobami
- Wzorce projektowe ETL
Poznaj naszą firmę
INFORMACJA CENOWA:
od 3750 zł netto za jedną osobę
CZAS TRWANIA (dni): 3
KOD SZKOLENIA: IT-BD-60
MASZ PYTANIA?
Skontaktuj się z nami, aby uzyskać więcej informacji o naszych szkoleniach, programach oraz współpracy. Chętnie odpowiemy na wszystkie Twoje zapytania!