Python i Spark dla Big Data (PySpark)
Opis
Zaawansowane szkolenie łączące możliwości Pythona i Apache Spark w kontekście przetwarzania danych wielkoskalowych. Program warsztatów obejmuje zarówno fundamenty teoretyczne przetwarzania rozproszonych danych, jak i praktyczne aspekty implementacji rozwiązań Big Data. Uczestnicy poznają narzędzia i techniki niezbędne do efektywnego przetwarzania dużych zbiorów danych w środowisku rozproszonym, ze szczególnym uwzględnieniem optymalizacji wydajności i skalowalności.
Profil uczestnika
- Inżynierowie danych pracujący z Big Data
- Data Scientists przetwarzający duże zbiory danych
- Architekci rozwiązań Big Data
- Programiści aplikacji analitycznych
- DevOps Engineers zajmujący się przetwarzaniem danych
- Specjaliści Business Intelligence
Agenda
- Podstawy Apache Spark
- Architektura Spark
- RDD i DataFrames
- Transformacje i akcje
- Zarządzanie pamięcią
- Przetwarzanie danych w PySpark
- Operacje na DataFrames
- Windowing i partycjonowanie
- Optymalizacja zapytań
- Integracja z zewnętrznymi źródłami
- Zaawansowane techniki
- Machine Learning z MLlib
- Spark Streaming
- Spark SQL
- Przetwarzanie grafowe
- Wdrażanie i monitoring
- Konfiguracja klastra
- Monitoring wydajności
- Debugowanie aplikacji
- Optymalizacja zasobów
Korzyści
Uczestnik będzie potrafił projektować i implementować wydajne rozwiązania Big Data wykorzystując ekosystem Apache Spark i Python. Zdobędzie umiejętność optymalizacji przetwarzania danych w środowisku rozproszonym i efektywnego zarządzania zasobami klastra. Nauczy się stosować zaawansowane techniki analityczne na dużych zbiorach danych, w tym uczenie maszynowe i analitykę strumieniową. Pozna praktyczne aspekty wdrażania i utrzymania aplikacji Spark w środowisku produkcyjnym. Będzie umiał monitorować i optymalizować wydajność aplikacji Big Data. Rozwinie umiejętności w zakresie integracji różnych źródeł danych w rozwiązaniach wielkoskalowych.
Wymagane przygotowanie uczestników
- Praktyczna znajomość Pythona
- Podstawowa wiedza o Big Data
- Doświadczenie w przetwarzaniu danych
- Znajomość SQL
Zagadnienia
- Architektura Apache Spark
- Przetwarzanie rozproszone
- Transformacje i akcje
- Spark SQL i DataFrames
- Machine Learning w Spark
- Spark Streaming
- Optymalizacja wydajności
- Monitoring aplikacji
- Zarządzanie klastrem
- Integracja źródeł danych
- Przetwarzanie grafowe
- Best practices w Big Data
Poznaj naszą firmę
INFORMACJA CENOWA:
od 2950 zł netto za jedną osobę
CZAS TRWANIA (dni): 3
KOD SZKOLENIA: IT-BD-35
MASZ PYTANIA?
Skontaktuj się z nami, aby uzyskać więcej informacji o naszych szkoleniach, programach oraz współpracy. Chętnie odpowiemy na wszystkie Twoje zapytania!