Szkolenie IBM Open Platform with Apache Hadoop

IBM Open Platform (IOP) z Apache Hadoop to pierwsza wiodąca platforma współpracy, która umożliwia opracowywanie rozwiązań Big Data na wspólnym zestawie technologii Apache Hadoop. Inicjatywa Open Data Platform (ODP) to wspólny wysiłek branżowy skoncentrowany na promowaniu i rozwijaniu stanu technologii Apache Hadoop i Big Data dla przedsiębiorstw. Obecny ekosystem jest poddawany wyzwaniom i spowalniany przez rozdrobnione i powielone wysiłki różnych grup. Rdzeń ODP wyeliminuje zgadywanie z procesu i przyspieszy wiele przypadków użycia, działając na wspólnej platformie. Umożliwia przedsiębiorstwom skupienie się na budowaniu aplikacji biznesowych.

Ten moduł zapewnia dogłębne wprowadzenie do głównych komponentów rdzenia ODP — mianowicie Apache Hadoop (w tym HDFS, YARN i MapReduce) i Apache Ambari — a także zapewnia omówienie głównych komponentów open source, które są zazwyczaj udostępniane z rdzeniem ODP w klastrze produkcyjnym Hadoop.

Profil uczestnika

Ten średniozaawansowany kurs szkoleniowy jest przeznaczony dla osób, które chcą zdobyć podstawy IBM BigInsights. Obejmuje to: inżynierów Big Data, naukowców zajmujących się danymi, programistów lub deweloperów, administratorów, którzy są zainteresowani nauką o platformie Open Platform firmy IBM z Apache Hadoop.

Agenda

Jednostka 1: IBM Open Platform z Apache Hadoop

  • Ćwiczenie 1: Eksploracja HDFS

Jednostka 2: Apache Ambari

  • Ćwiczenie 2: Zarządzanie klastrami Hadoop za pomocą Apache Ambari

Jednostka 3: Hadoop Distributed File System

  • Ćwiczenie 3: Dostęp do plików i podstawowe polecenia z HDFS

Jednostka 4: MapReduce i Yarn

  • Temat 1: Wprowadzenie do MapReduce na podstawie MR1
  • Temat 2: Ograniczenia MR1
  • Temat 3: YARN i MR2
  • Ćwiczenie 4: Tworzenie i kodowanie prostego zadania MapReduce
  • Możliwe bardziej złożone drugie ćwiczenie

Jednostka 5: Apache Spark

  • Ćwiczenie 5: Praca z RDD Spark do zadania Spark

Jednostka 6: Koordynacja, zarządzanie i nadzór

  • Ćwiczenie 6: Apache ZooKeeper, Apache Slider, Apache Knox

Jednostka 7: Przenoszenie danych

  • Ćwiczenie 7: Przenoszenie danych do Hadoop za pomocą Flume i Sqoop

Jednostka 8: Przechowywanie i uzyskiwanie dostępu do danych

  • Temat 1: Reprezentowanie danych: CSV, XML, JSON i YAML
  • Temat 2: Języki programowania Open Source: Pig, Hive i inne [R, Python itp.]
  • Temat 3: Koncepcje NoSQL
  • Temat 4: Uzyskiwanie dostępu do danych Hadoop za pomocą Hive
  • Ćwiczenie 8: Wykonywanie operacji CRUD za pomocą powłoki HBase
  • Temat 5: Zapytania do danych Hadoop za pomocą Hive
  • Ćwiczenie 9: Uzyskiwanie dostępu do danych Hadoop/HBase za pomocą Hive

Jednostka 9: Tematy zaawansowane

  • Temat 1: Kontrolowanie przepływów pracy zadań za pomocą Oozie
  • Temat 2: Wyszukiwanie za pomocą Apache Solr
  • Brak ćwiczeń laboratoryjnych

Wymagane przygotowanie uczestników

  • Jednakże znajomość Linuksa nie będzie pomocna.

Zagadnienia

  • Wymienienie i opisanie głównych komponentów stosu Apache Hadoop typu open source oraz podejścia przyjętego przez Open Data Foundation.
  • Zarządzanie klastrami Hadoop i ich monitorowanie za pomocą Apache Ambari i powiązanych komponentów.
  • Analiza rozproszonego systemu plików Hadoop (HDFS) poprzez uruchamianie poleceń Hadoop.
  • Poznanie różnic między Hadoop 1 (z MapReduce 1) a Hadoop 2 (z YARN i MapReduce 2).
  • Tworzenie i uruchamianie podstawowych zadań MapReduce za pomocą wiersza poleceń.
  • Wyjaśnienie, w jaki sposób Spark integruje się z ekosystemem Hadoop.
  • Wykonywanie iteracyjnych algorytmów za pomocą RDD Spark.
  • Wyjaśnienie roli koordynacji, zarządzania i nadzoru w ekosystemie Hadoop za pomocą Apache Zookeeper, Apache Slider i Apache Knox.
  • Zapoznanie się z typowymi metodami przenoszenia danych.
    • Konfigurowanie Flume do ładowania danych plików dziennika.
    • Przenoszenie danych do HDFS z baz danych relacyjnych za pomocą Sqoop.
  • Zrozumienie, kiedy stosować różne formaty przechowywania danych (pliki płaskie, CSV/rozgraniczone, pliki Avro/Sequence, Parquet itp.).
  • Przeglądanie różnic między dostępnymi językami programowania typu open source, często używanymi w Hadoop (Pig, Hive) oraz w Data Science (Python, R).
  • Wykonywanie zapytań o dane z Hive.
  • Realizowanie losowego dostępu do danych przechowywanych w HBase.
  • Poznanie zaawansowanych koncepcji, takich jak Oozie i Solr.

Poznaj naszą firmę

INFORMACJA CENOWA:
od 3000 zł netto za jedną osobę

CZAS TRWANIA (dni): 2

KOD SZKOLENIA: DW606G

Udostępnij swoim znajomym