Big Data Engineering – Einführung (3 Tage)
Die Schulung gibt einen ersten Ein- und Überblick über die Komponenten, Methoden und Begrifflichkeiten zu den Themen: Data Engineering / Data Science und Cloud. Dieser beschränkt sich nicht auf reine Theorie, sondern ermöglicht Ihnen erste praktische Erfahrungen anhand eines fiktiven Projekts zu sammeln.
Nach einer Einführung in die Paradigmen von Big Data lernen Sie anhand eines realen Twitter Datensets, wie einfach Sie Daten in den Hadoop Cluster streamen können. Danach nehmen Sie eigenhändig Daten-Transformationen vor und orientieren sich dabei immer am besprochenen Data Lake Konzept. Am Ende des Data Engineering Parts haben Sie die Daten soweit verdichtet und aufbereitet, dass Sie im nächsten Schritt mit Data Science Methoden Analysen darauf ausführen.
Optional: Auf Wunsch können wir Ihnen das Thema auch speziell auf das Ökosystem in der Amazon AWS Cloud aufbereiten.
Voraussetzungen
- IT-Grundlagen (u.a. SQL)
- Grundkenntnisse der Programmierung
Big Data / Hadoop Einführung
- Was ist Big Data?
- Auffrischung: Wissen zu Netzwerken
- Basiswissen verteilte Systeme
- Was ist Hadoop?
- Was ist ein Hadoop Cluster?
- Business Use Case
- YARN
optional:
- obige Themen anhand des Amazon AWS Ökosystems
Toolset 1
- Spark
- Kafka
- NiFi
- HDFS
- HBase
optional:
- obige Themen anhand des Amazon AWS Ökosystems
Toolset 2 und Security
- Hive
- SparkSQL
- Spark Streaming
- Security
optional:
- obige Themen anhand des Amazon AWS Ökosystems