Szkolenie IBM Open Platform with Apache Hadoop
IBM Open Platform (IOP) z Apache Hadoop to pierwsza wiodąca platforma współpracy, która umożliwia opracowywanie rozwiązań Big Data na wspólnym zestawie technologii Apache Hadoop. Inicjatywa Open Data Platform (ODP) to wspólny wysiłek branżowy skoncentrowany na promowaniu i rozwijaniu stanu technologii Apache Hadoop i Big Data dla przedsiębiorstw. Obecny ekosystem jest poddawany wyzwaniom i spowalniany przez rozdrobnione i powielone wysiłki różnych grup. Rdzeń ODP wyeliminuje zgadywanie z procesu i przyspieszy wiele przypadków użycia, działając na wspólnej platformie. Umożliwia przedsiębiorstwom skupienie się na budowaniu aplikacji biznesowych.
Ten moduł zapewnia dogłębne wprowadzenie do głównych komponentów rdzenia ODP — mianowicie Apache Hadoop (w tym HDFS, YARN i MapReduce) i Apache Ambari — a także zapewnia omówienie głównych komponentów open source, które są zazwyczaj udostępniane z rdzeniem ODP w klastrze produkcyjnym Hadoop.
Profil uczestnika
Ten średniozaawansowany kurs szkoleniowy jest przeznaczony dla osób, które chcą zdobyć podstawy IBM BigInsights. Obejmuje to: inżynierów Big Data, naukowców zajmujących się danymi, programistów lub deweloperów, administratorów, którzy są zainteresowani nauką o platformie Open Platform firmy IBM z Apache Hadoop.
Agenda
Jednostka 1: IBM Open Platform z Apache Hadoop
- Ćwiczenie 1: Eksploracja HDFS
Jednostka 2: Apache Ambari
- Ćwiczenie 2: Zarządzanie klastrami Hadoop za pomocą Apache Ambari
Jednostka 3: Hadoop Distributed File System
- Ćwiczenie 3: Dostęp do plików i podstawowe polecenia z HDFS
Jednostka 4: MapReduce i Yarn
- Temat 1: Wprowadzenie do MapReduce na podstawie MR1
- Temat 2: Ograniczenia MR1
- Temat 3: YARN i MR2
- Ćwiczenie 4: Tworzenie i kodowanie prostego zadania MapReduce
- Możliwe bardziej złożone drugie ćwiczenie
Jednostka 5: Apache Spark
- Ćwiczenie 5: Praca z RDD Spark do zadania Spark
Jednostka 6: Koordynacja, zarządzanie i nadzór
- Ćwiczenie 6: Apache ZooKeeper, Apache Slider, Apache Knox
Jednostka 7: Przenoszenie danych
- Ćwiczenie 7: Przenoszenie danych do Hadoop za pomocą Flume i Sqoop
Jednostka 8: Przechowywanie i uzyskiwanie dostępu do danych
- Temat 1: Reprezentowanie danych: CSV, XML, JSON i YAML
- Temat 2: Języki programowania Open Source: Pig, Hive i inne [R, Python itp.]
- Temat 3: Koncepcje NoSQL
- Temat 4: Uzyskiwanie dostępu do danych Hadoop za pomocą Hive
- Ćwiczenie 8: Wykonywanie operacji CRUD za pomocą powłoki HBase
- Temat 5: Zapytania do danych Hadoop za pomocą Hive
- Ćwiczenie 9: Uzyskiwanie dostępu do danych Hadoop/HBase za pomocą Hive
Jednostka 9: Tematy zaawansowane
- Temat 1: Kontrolowanie przepływów pracy zadań za pomocą Oozie
- Temat 2: Wyszukiwanie za pomocą Apache Solr
- Brak ćwiczeń laboratoryjnych
Wymagane przygotowanie uczestników
- Jednakże znajomość Linuksa nie będzie pomocna.
Zagadnienia
- Wymienienie i opisanie głównych komponentów stosu Apache Hadoop typu open source oraz podejścia przyjętego przez Open Data Foundation.
- Zarządzanie klastrami Hadoop i ich monitorowanie za pomocą Apache Ambari i powiązanych komponentów.
- Analiza rozproszonego systemu plików Hadoop (HDFS) poprzez uruchamianie poleceń Hadoop.
- Poznanie różnic między Hadoop 1 (z MapReduce 1) a Hadoop 2 (z YARN i MapReduce 2).
- Tworzenie i uruchamianie podstawowych zadań MapReduce za pomocą wiersza poleceń.
- Wyjaśnienie, w jaki sposób Spark integruje się z ekosystemem Hadoop.
- Wykonywanie iteracyjnych algorytmów za pomocą RDD Spark.
- Wyjaśnienie roli koordynacji, zarządzania i nadzoru w ekosystemie Hadoop za pomocą Apache Zookeeper, Apache Slider i Apache Knox.
- Zapoznanie się z typowymi metodami przenoszenia danych.
- Konfigurowanie Flume do ładowania danych plików dziennika.
- Przenoszenie danych do HDFS z baz danych relacyjnych za pomocą Sqoop.
- Zrozumienie, kiedy stosować różne formaty przechowywania danych (pliki płaskie, CSV/rozgraniczone, pliki Avro/Sequence, Parquet itp.).
- Przeglądanie różnic między dostępnymi językami programowania typu open source, często używanymi w Hadoop (Pig, Hive) oraz w Data Science (Python, R).
- Wykonywanie zapytań o dane z Hive.
- Realizowanie losowego dostępu do danych przechowywanych w HBase.
- Poznanie zaawansowanych koncepcji, takich jak Oozie i Solr.
Poznaj naszą firmę
INFORMACJA CENOWA:
od 3000 zł netto za jedną osobę
CZAS TRWANIA (dni): 2
KOD SZKOLENIA: DW606G
MASZ PYTANIA?
Skontaktuj się z nami, aby uzyskać więcej informacji o naszych szkoleniach, programach oraz współpracy. Chętnie odpowiemy na wszystkie Twoje zapytania!