Skalowanie analizy danych z Python i Dask

Opis

Szkolenie poświęcone jest praktycznemu wykorzystaniu biblioteki Dask do skalowania analiz danych w Pythonie. Program warsztatów został zaprojektowany tak, aby uczestnicy mogli przejść od standardowych analiz do przetwarzania rozproszonego na dużych zbiorach danych. Podczas zajęć uczestnicy poznają nie tylko teoretyczne podstawy przetwarzania równoległego, ale przede wszystkim nauczą się przekształcać istniejące analizy Pandas i NumPy na wydajne rozwiązania wykorzystujące możliwości Dask. Warsztaty praktyczne, stanowiące 70% czasu szkolenia, opierają się na rzeczywistych scenariuszach i problemach spotykanych w codziennej pracy analityka danych.

Profil uczestnika

  • Analitycy danych pracujący z dużymi zbiorami danych
  • Programiści Python specjalizujący się w analizie danych
  • Data Scientists poszukujący rozwiązań wydajnościowych
  • Inżynierowie danych odpowiedzialni za optymalizację procesów
  • Architekci rozwiązań analitycznych
  • Specjaliści Machine Learning pracujący z dużymi zbiorami
  • Deweloperzy aplikacji analitycznych

Agenda

  1. Wprowadzenie do przetwarzania rozproszonego
    • Architektura i zasady działania Dask
    • Porównanie z tradycyjnymi narzędziami Pythona
    • Konfiguracja środowiska rozproszonego
    • Podstawowe struktury danych w Dask
  2. Transformacja analiz do środowiska rozproszonego
    • Migracja kodu Pandas do Dask DataFrame
    • Optymalizacja operacji grupowania i agregacji
    • Przetwarzanie strumieni danych
    • Zarządzanie pamięcią
  3. Zaawansowane techniki przetwarzania
    • Obliczenia macierzowe z Dask Array
    • Równoległe przetwarzanie zadań
    • Optymalizacja grafów obliczeniowych
    • Debugowanie i profilowanie
  4. Wdrażanie rozwiązań produkcyjnych
    • Konfiguracja klastra Dask
    • Monitorowanie i diagnostyka
    • Integracja z ekosystemem Big Data
    • Strategie skalowania

Korzyści

  • Umiejętność przekształcania analiz do środowiska rozproszonego
  • Praktyczna znajomość biblioteki Dask
  • Zdolność optymalizacji wydajności analiz
  • Umiejętność zarządzania pamięcią w dużych obliczeniach
  • Znajomość technik debugowania kodu rozproszonego
  • Doświadczenie w konfiguracji środowiska produkcyjnego
  • Zrozumienie zasad przetwarzania równoległego

Wymagane przygotowanie uczestników

  • Zaawansowana znajomość Pythona
  • Doświadczenie w pracy z Pandas i NumPy
  • Rozumienie podstaw przetwarzania danych
  • Znajomość koncepcji programowania równoległego

Zagadnienia

  • Architektura Dask
  • Struktury danych rozproszone
  • Optymalizacja wydajności
  • Przetwarzanie równoległe
  • Zarządzanie pamięcią
  • Grafy obliczeniowe
  • Monitorowanie wykonania
  • Debugowanie rozproszone
  • Skalowanie horyzontalne
  • Integracja z Pandas
  • Przetwarzanie strumieni
  • Konfiguracja klastrów

Poznaj naszą firmę

INFORMACJA CENOWA:
od 2450 zł netto za jedną osobę

CZAS TRWANIA (dni): 2

KOD SZKOLENIA: IT-BD-115

Udostępnij swoim znajomym