Python i Spark dla Big Data (PySpark)

Opis

Zaawansowane szkolenie łączące możliwości Pythona i Apache Spark w kontekście przetwarzania danych wielkoskalowych. Program warsztatów obejmuje zarówno fundamenty teoretyczne przetwarzania rozproszonych danych, jak i praktyczne aspekty implementacji rozwiązań Big Data. Uczestnicy poznają narzędzia i techniki niezbędne do efektywnego przetwarzania dużych zbiorów danych w środowisku rozproszonym, ze szczególnym uwzględnieniem optymalizacji wydajności i skalowalności.

Profil uczestnika

  • Inżynierowie danych pracujący z Big Data
  • Data Scientists przetwarzający duże zbiory danych
  • Architekci rozwiązań Big Data
  • Programiści aplikacji analitycznych
  • DevOps Engineers zajmujący się przetwarzaniem danych
  • Specjaliści Business Intelligence

Agenda

  1. Podstawy Apache Spark
    • Architektura Spark
    • RDD i DataFrames
    • Transformacje i akcje
    • Zarządzanie pamięcią
  2. Przetwarzanie danych w PySpark
    • Operacje na DataFrames
    • Windowing i partycjonowanie
    • Optymalizacja zapytań
    • Integracja z zewnętrznymi źródłami
  3. Zaawansowane techniki
    • Machine Learning z MLlib
    • Spark Streaming
    • Spark SQL
    • Przetwarzanie grafowe
  4. Wdrażanie i monitoring
    • Konfiguracja klastra
    • Monitoring wydajności
    • Debugowanie aplikacji
    • Optymalizacja zasobów

Korzyści

Uczestnik będzie potrafił projektować i implementować wydajne rozwiązania Big Data wykorzystując ekosystem Apache Spark i Python. Zdobędzie umiejętność optymalizacji przetwarzania danych w środowisku rozproszonym i efektywnego zarządzania zasobami klastra. Nauczy się stosować zaawansowane techniki analityczne na dużych zbiorach danych, w tym uczenie maszynowe i analitykę strumieniową. Pozna praktyczne aspekty wdrażania i utrzymania aplikacji Spark w środowisku produkcyjnym. Będzie umiał monitorować i optymalizować wydajność aplikacji Big Data. Rozwinie umiejętności w zakresie integracji różnych źródeł danych w rozwiązaniach wielkoskalowych.

Wymagane przygotowanie uczestników

  • Praktyczna znajomość Pythona
  • Podstawowa wiedza o Big Data
  • Doświadczenie w przetwarzaniu danych
  • Znajomość SQL

Zagadnienia

  • Architektura Apache Spark
  • Przetwarzanie rozproszone
  • Transformacje i akcje
  • Spark SQL i DataFrames
  • Machine Learning w Spark
  • Spark Streaming
  • Optymalizacja wydajności
  • Monitoring aplikacji
  • Zarządzanie klastrem
  • Integracja źródeł danych
  • Przetwarzanie grafowe
  • Best practices w Big Data

Poznaj naszą firmę

INFORMACJA CENOWA:
od 2950 zł netto za jedną osobę

CZAS TRWANIA (dni): 3

KOD SZKOLENIA: IT-BD-35

?
?
Zapoznałem/łam się i akceptuję politykę prywatności. *