Spark Streaming z Python i Kafka
Opis
Szkolenie poświęcone jest implementacji systemów przetwarzania strumieni danych w czasie rzeczywistym z wykorzystaniem Apache Spark Streaming, Pythona i Apache Kafka. Program prowadzi uczestników przez proces budowy skalowalnych rozwiązań do analizy danych strumieniowych, łącząc teorię z praktycznymi warsztatami implementacyjnymi. Zajęcia skupiają się na rzeczywistych scenariuszach wykorzystania technologii strumieniowych w projektach Big Data.
Profil uczestnika
- Inżynierowie danych pracujący z systemami Big Data
- Programiści Python zainteresowani przetwarzaniem strumieniowym
- Analitycy danych potrzebujący narzędzi do analizy w czasie rzeczywistym
- Architekci rozwiązań Big Data
- Deweloperzy aplikacji przetwarzających duże wolumeny danych
- Specjaliści ds. integracji systemów Big Data
- Data Scientists pracujący z danymi strumieniowymi
Agenda
- Podstawy Spark Streaming
- Architektura Spark Structured Streaming
- Integracja z Apache Kafka
- Model przetwarzania strumieni
- Konfiguracja środowiska
- Implementacja transformacji strumieniowych
- Operacje na strumieniach danych
- Agregacje i windowing
- Łączenie strumieni
- Obsługa opóźnionych danych
- Zaawansowane przetwarzanie
- Watermarking i late data
- Checkpointing i odporność na awarie
- Optymalizacja wydajności
- Monitorowanie przetwarzania
- Integracja z ekosystemem
- Sink-i i output modes
- Integracja z systemami zewnętrznymi
- Workflow-y strumieniowe
- Dobre praktyki produkcyjne
Korzyści
Uczestnik zdobędzie praktyczne umiejętności w zakresie implementacji systemów przetwarzania strumieni danych z wykorzystaniem Spark Streaming i Kafka. Nauczy się projektować i wdrażać skalowalne rozwiązania do analizy danych w czasie rzeczywistym. Rozwinie umiejętności w zakresie optymalizacji i monitorowania systemów strumieniowych. Pozna techniki integracji różnych komponentów ekosystemu Big Data. Zdobędzie wiedzę pozwalającą na świadome wybieranie odpowiednich wzorców przetwarzania dla konkretnych przypadków użycia.
Wymagane przygotowanie uczestników
- Znajomość programowania w języku Python
- Podstawowa wiedza o Apache Spark
- Rozumienie koncepcji przetwarzania strumieniowego
- Doświadczenie w pracy z danymi
Zagadnienia
- Architektura Spark Structured Streaming
- Integracja Spark z Kafka
- Transformacje strumieniowe
- Agregacje i windowing
- Watermarking
- Checkpointing
- Optymalizacja wydajności
- Monitorowanie strumieni
- Sink-i i output modes
- Łączenie strumieni
- Obsługa opóźnionych danych
- Wzorce przetwarzania strumieniowego
Poznaj naszą firmę
INFORMACJA CENOWA:
od 1450 zł netto za jedną osobę
CZAS TRWANIA (dni): 1
KOD SZKOLENIA: IT-BD-33
MASZ PYTANIA?
Skontaktuj się z nami, aby uzyskać więcej informacji o naszych szkoleniach, programach oraz współpracy. Chętnie odpowiemy na wszystkie Twoje zapytania!