Podstawy Apache Spark – od teorii do praktyki

Opis

Szkolenie dostarcza gruntowną wiedzę o podstawach Apache Spark, łącząc teoretyczne fundamenty z praktycznym zastosowaniem. Program obejmuje kluczowe aspekty przetwarzania danych, od podstawowych operacji po zaawansowane transformacje. Warsztaty praktyczne pozwalają uczestnikom zdobyć hands-on experience w projektowaniu i implementacji rozwiązań opartych o Spark.

Profil uczestnika

  • Programiści rozpoczynający pracę z Big Data
  • Analitycy danych chcący poznać Apache Spark
  • Inżynierowie systemowi migrujący do rozwiązań Big Data
  • Deweloperzy aplikacji rozproszonych
  • Specjaliści ETL poszukujący nowych narzędzi
  • Administratorzy systemów zainteresowani Apache Spark

Agenda

  1. Fundamenty Apache Spark
    • Architektura i komponenty
    • Model programowania rozproszonego
    • RDD i DataFrame API
    • Spark SQL i strukturalne przetwarzanie
  2. Przetwarzanie danych
    • Transformacje i akcje
    • Zarządzanie pamięcią
    • Optymalizacja zapytań
    • Integracja z zewnętrznymi źródłami
  3. Zaawansowane operacje
    • Agregacje i grupowanie
    • Łączenie zbiorów danych
    • UDF i niestandardowe funkcje
    • Persistencja i cache
  4. Praktyczne zastosowania
    • Analiza danych w czasie rzeczywistym
    • Przetwarzanie wsadowe
    • Integracja z ekosystemem Hadoop
    • Testowanie i debugowanie

Korzyści

Nabycie fundamentalnej wiedzy o architekturze i zasadach działania Apache Spark. Zdobycie praktycznych umiejętności w zakresie przetwarzania danych. Poznanie technik optymalizacji i debugowania aplikacji Spark. Przyswojenie najlepszych praktyk w projektowaniu rozwiązań Big Data. Rozwój umiejętności analizy danych z wykorzystaniem Spark SQL. Opanowanie metod integracji Spark z innymi technologiami Big Data.

Wymagane przygotowanie uczestników

  • Podstawowa znajomość programowania w Java lub Python
  • Ogólna wiedza o przetwarzaniu danych
  • Znajomość podstaw SQL
  • Podstawowa znajomość systemów Unix/Linux

Zagadnienia

  • Architektura Apache Spark
  • RDD i DataFrame API
  • Spark SQL
  • Transformacje i akcje
  • Zarządzanie pamięcią
  • Optymalizacja wydajności
  • Przetwarzanie strumieniowe
  • Integracja z Hadoop
  • Testowanie aplikacji
  • Debugowanie i monitoring

Poznaj naszą firmę

INFORMACJA CENOWA:
od 3750 zł netto za jedną osobę

CZAS TRWANIA (dni): 3

KOD SZKOLENIA: IT-BD-20

?
?
Zapoznałem/łam się i akceptuję politykę prywatności. *