Spark Streaming z Python i Kafka

Opis

Szkolenie poświęcone jest implementacji systemów przetwarzania strumieni danych w czasie rzeczywistym z wykorzystaniem Apache Spark Streaming, Pythona i Apache Kafka. Program prowadzi uczestników przez proces budowy skalowalnych rozwiązań do analizy danych strumieniowych, łącząc teorię z praktycznymi warsztatami implementacyjnymi. Zajęcia skupiają się na rzeczywistych scenariuszach wykorzystania technologii strumieniowych w projektach Big Data.

Profil uczestnika

  • Inżynierowie danych pracujący z systemami Big Data
  • Programiści Python zainteresowani przetwarzaniem strumieniowym
  • Analitycy danych potrzebujący narzędzi do analizy w czasie rzeczywistym
  • Architekci rozwiązań Big Data
  • Deweloperzy aplikacji przetwarzających duże wolumeny danych
  • Specjaliści ds. integracji systemów Big Data
  • Data Scientists pracujący z danymi strumieniowymi

Agenda

  1. Podstawy Spark Streaming
    • Architektura Spark Structured Streaming
    • Integracja z Apache Kafka
    • Model przetwarzania strumieni
    • Konfiguracja środowiska
  2. Implementacja transformacji strumieniowych
    • Operacje na strumieniach danych
    • Agregacje i windowing
    • Łączenie strumieni
    • Obsługa opóźnionych danych
  3. Zaawansowane przetwarzanie
    • Watermarking i late data
    • Checkpointing i odporność na awarie
    • Optymalizacja wydajności
    • Monitorowanie przetwarzania
  4. Integracja z ekosystemem
    • Sink-i i output modes
    • Integracja z systemami zewnętrznymi
    • Workflow-y strumieniowe
    • Dobre praktyki produkcyjne

Korzyści

Uczestnik zdobędzie praktyczne umiejętności w zakresie implementacji systemów przetwarzania strumieni danych z wykorzystaniem Spark Streaming i Kafka. Nauczy się projektować i wdrażać skalowalne rozwiązania do analizy danych w czasie rzeczywistym. Rozwinie umiejętności w zakresie optymalizacji i monitorowania systemów strumieniowych. Pozna techniki integracji różnych komponentów ekosystemu Big Data. Zdobędzie wiedzę pozwalającą na świadome wybieranie odpowiednich wzorców przetwarzania dla konkretnych przypadków użycia.

Wymagane przygotowanie uczestników

  • Znajomość programowania w języku Python
  • Podstawowa wiedza o Apache Spark
  • Rozumienie koncepcji przetwarzania strumieniowego
  • Doświadczenie w pracy z danymi

Zagadnienia

  • Architektura Spark Structured Streaming
  • Integracja Spark z Kafka
  • Transformacje strumieniowe
  • Agregacje i windowing
  • Watermarking
  • Checkpointing
  • Optymalizacja wydajności
  • Monitorowanie strumieni
  • Sink-i i output modes
  • Łączenie strumieni
  • Obsługa opóźnionych danych
  • Wzorce przetwarzania strumieniowego

Poznaj naszą firmę

INFORMACJA CENOWA:
od 1450 zł netto za jedną osobę

CZAS TRWANIA (dni): 1

KOD SZKOLENIA: IT-BD-33

?
?
Zapoznałem/łam się i akceptuję politykę prywatności. *