Das Data Lake Konzept: Der Schatz im Datensee

23. Juli, 2015
17:36

Daten und Informationen spielen in Unternehmen eine immer größere Rolle, und sind neben Arbeit, Kapital und Umwelt der neue Produktionsfaktor geworden. Kaum ein Begriff hat diesen Bereich so geprägt wie „Big Data“.

Dabei geht es keineswegs nur um die Größe der Datenmengen. Vielmehr sind in den letzten Jahren neue Arten von Daten in Unternehmen angefallen, angefangen von einer zunehmenden Zahl an Sensordaten und technischen Log-Dateien bis hin zu Social Media. Diese enthalten häufig wertvolle Informationen, werden aber in klassischen Business Intelligence Syst men ignoriert. Big Data bedeutet letztendlich, Nutzen aus einer Vielzahl oder allen Daten zu ziehen.

„Für den Gewinn neuer Erkenntnisse gilt es, traditionelle und neue Analysemethoden intelligent miteinander zu kombinieren. Die optimale Integration von Big Data Technologien wie Hadoop mit bestehenden Architekturen ist hier von entscheidender Bedeutung.“
Matthias Reiss, IT Specialist Big Data, IBM

Die Heterogenität der „neuen“ Daten und die schnelle Veränderlichkeit der Formate, lässt sich kaum mit klassischen Data Warehouse Prozessen und Methoden abbilden. Hauptursache dafür sind der hohe Vorab-Aufwand für Datenintegration und die daraus resultierende mangelnde Flexibilität neue Anforderungen auch sehr kurzfristig und agil umsetzen zu können. Außer- dem lassen sich manche Daten nur schwer in klassische, relationale Strukturen überführen. Um diese neuen analytischen Anforderungen zu adressieren, wird immer öfter das Data Lake Konzept eingesetzt.

Lesen Sie hier die Fortsetzung, veröffentlicht 3. Juni 2017:

>> Das Data Lake Konzept: Die Schatzsuche im Datensee geht weiter

Gemeinsamkeiten und Unterschiede zum Data Warehouse

Im Vergleich zum klassischen Data Warehouse ist dies ein Paradigmenwechsel: Wurden traditionell die Daten zunächst mit komplexen Datenqualitäts- und Integrationsverfahren in definierte Strukturen überführt, werden sie beim Data Lake direkt in ihrer Ursprungsform abgelegt. Damit können beliebige Daten schnell und einfach für Analysen nutzbar gemacht und beliebig verknüpft werden. Während beim klassischen Data Warehouse eine hohe (Prozess-) Effizienz für interaktive Analysen und Berichte im Vordergrund steht, und die Informationen relativ passgenau für den Benutzer aufbereitet sind, ermöglicht ein Data Lake vor allem das einfache Entdecken neuer Zusammenhänge in nicht aufbereiteten Daten. Diese in der Data Science verbreitete, „forschungsorientierte“ Vorgehensweise ist vor allem sinnvoll, wenn nicht klar ist, ob Nutzen aus den Daten generiert werden kann. In der Praxis lässt sich feststellen dass fast immer eine Kombination aus standardisierten Self-Service Analysen und Data Science orientierten Vorgehensweisen erforderlich ist, was zu Architekturen wie in Bild 1 führt. Der Data Lake ist dabei in einen Rohdatenbereich (Raw Data) und einen Bereich mit aufbereiteten, integrierten und qualitätsgesicherten Daten (Refined Data) unterteilt.

Bild 1: Der Data Lake und seine Bereiche.

Data Lakes: Kombination von Technologien

Herzstück des Data Lakes ist üblicherweise das Open Source Framework Hadoop. Es kann beliebige Datenarten in großer Menge verarbeiten, wobei die Berechnungen über viele Knoten eines Clusters verteilt werden. Damit eignet es sich ideal, die Rohdaten in ihrer Ur- sprungsform zu speichern und zu analy- sieren. Manchmal besteht aber auch die Notwendigkeit, Daten schon vor dem Speichern zu analysieren. Gründe dafür sind zum Beispiel Echtzeitanforderun- gen (z. B. aus Analysen resultieren direkt Aktionen, von der Warnung (Alert) bis zum vollautomatischen Prozess) oder dass eine vollumfängliche Speicherung technologisch oder wirtschaftlich nicht sinnvoll ist und nur bestimmte Events herausgefiltert werden sollen oder eine Vorverdichtung stattfinden soll. Dafür werden Streaming-Analyse Systeme wie IBM InfoSphere Streams verwendet, die Analysen direkt im Datenstrom ermöglichen.

Innerhalb des Data Lake werden Daten teilweise aufbereitet um dem Fachanwender die Arbeit zu erleichtern, indem sie zum Beispiel in dimensionale Modelle mit den entsprechenden Dimensionen überführt werden, Bestandkennzahlen aus Zu-/Abgängen vorberechnet werden und Datenqualitätsverfahren angewendet werden. Diese aufbereiteten Daten werden dann oft einer großen Gruppe von Anwendern bereitgestellt.

Der aufbereitete Teil des Data Lake entspricht in seinem Konzept im Wesentlichen dem des Data Warehouse. Daher werden oft klassische Datenbank-Technologien verwendet, wobei der Anspruch der Anwender gerade an die Ein-achheit deutlich gestiegen ist. Eine Vielzahl neuer innovativer Produkte – vom hybriden in-memory Data Warehouse über Data Warehouse Appliances bis hin zu Cloud-Angeboten adressieren dieses Bedürfnis. Ziel ist vor allem die schnellere Umsetzung neuer Anforderungen um auf dynamische Veränderungen etwa im Marktumfeld schnell und agiler (re-)agieren zu können.

Die so gewonnene Agilität ist allerdings eine große Herausforderung aus Governance-Sicht. Diese beschränkt sich dabei nicht nur auf Sicherheit, sondern umfasst auch Aspekte wie Nachvollziehbarkeit der Prozesse, Dokumentation der Dateninhalte und Interpretationen oder aber auch Maskierung von Daten für bestimmte Nutzergrup- pen. Effektive Governance erfordert einen ganzheitlichen Ansatz über den gesamten Prozess und Technologiegrenzen hinweg, um ein komplettes Bild des „Puzzles“ zu erhalten.

Der Einfluss von Technologie auf Geschäftsmodelle

Bei allen Technologiediskussionen ist wichtig, den Nutzen immer fest im Blick zu behalten. Neue, flexible Konzepte wie der Data Lake und innovative Produkte wie Hadoop und Streaming Analysen bieten weit mehr Möglichkeiten als die Modernisierung vorhandener Analyselandschaften. Sie ermöglichen vor allem komplett neue Geschäftsmodelle und -felder.

Das Beispiel des dänischen Windradherstellers Vestas zeigt, wie Technologie ein Geschäftsmodell nachhaltig verändern kann. Aufgrund zunehmenden Preisdrucks und der in Europa hohen Produktionskosten mussten neue Wege gefunden werden, sich im weltwei- ten Wettbewerb zu differenzieren. Um nicht nur Anlagen zu liefern, sondern Komplettprojekte mit „eingebauter“ In- vestitionssicherheit, entschied Vestas daher, Big Data zu nutzen um optimale Standorte für Windkraftanlagen/-parks zu berechnen und diese Ergebnisse Kunden und Vertriebsmitarbeitern zur Verfügung zu stellen.

Vor allem die Genauigkeit der Berechnungen und die Art der genutzten Daten waren entscheidend. Die Genauigkeit hing stark vom Detaillierungsgrad der Basisdaten, in diesem Fall der Windinformationen ab. Dank des Übergangs vom Wetterballon zu laserbasierter Messtechnologie stehen mittlerweile Werte mit deutlich höherer Präzision und Frequenz zur Verfügung, was zu einer massiven Vervielfachung der Daten führte. Interessant war aber auch die Vielfalt der Daten, die kombiniert werden mussten: Angefangen von Sensorda-en wie Wetterinformationen, über historische Informationen von Anlagen bis hin zu Stammdaten wie Karteninformationen. Wesentlich war neben der Performance vor allem das einfache Einbinden neuer Datenformate in ihrer Ursprungsform. Dies entspricht dem Rohdaten-Bereich des Data Lake. Zur Realisierung wurde mit IBM BigInsights eine für den Unternehmenseinsatz entwickelte Hadoop Distribution eingesetzt.

Hadoop – Grundlagen für die erfolgreiche Implementierung

Das Apache Hadoop Framework mit sei- nem flexiblen Ansatz auf Basis eines ver- teilten Filesystems bietet sich als eine der Kernkomponenten einer Data Lake Ar- chitektur an. Daten in verschiedenster Form können hier effizient und kosten- günstig abgelegt und für Analysen zur Verfügung gestellt werden. Installation, Betrieb und Wartung eines Hadoop Clusters erfordern allerdings eine nicht zu unterschätzende Menge an Know How, Aufwand, Zeit und Kosten.

Bild 2: Vestas bietet seinen Kunden Investitions- und Planungssicherheit durch Big Data.

Hadoop Distributionen nehmen mit optimal aufeinander abgestimmten Open Source Komponenten, erweitert um sinnvolle, an der Praxis in Unternehmen orientierten Erweiterungen und Tools, einer Hadoop Implementation den Schrecken. Dies ermöglicht den Aufbau eines Data Lakes mit optimaler Integration in bestehende Systemlandschaften und macht Hadoop von der Installation bis hin zur fertigen Analyse und Visualisierung fit für den Einsatz im Unternehmen.

Daten und Analysen für Alle

Data Lake Konzepte versprechen einem breiten Personenkreis im Unternehmen Zugang zu Daten und Analysen zu ermöglichen. Die darunterliegende Plattform soll Erkenntnisse jenseits der standardisierten BI-Reports ermöglichen und zum kreativen Arbeiten mit den Daten einladen. Genau hier gilt es aber im Hadoop Umfeld, einige Hürden zu überwinden. Java APIs oder Sprachen wie Pig setzen profunde Programmierkenntnisse voraus. Der entsprechende Skill in Unternehmen wie auch am Markt ist bislang nur begrenzt vorhanden.

Erfolg versprechen hier Komponenten, welche auf seit vielen Jahren im Unternehmen vorhandenem Know-how aufsetzen, einen schnellen Einstieg in die Welt von Big Data bieten und die Umsetzung von Analysen beschleunigen können. Ein Ansatz dafür sind zum Beispiel Werkzeuge, die ähnlich wie Tabellenkalkulationsprogramme funktionieren, dabei aber die speziellen Anforderungen von Big Data berücksichtigen. Zum einen werden intuitive Importprozesse für typische Daten wie JSON, CSV, TSV oder integrierte Webcrawler benötigt. Zum anderen ist es sinnvoll, Analysen zunächst auf einem kleinen Datenaus- schnitt (Sample) zu definieren bevor sie auf den gesamten Datenbestand angewendet werden, was idealerweise automatisiert sein sollte.

„Nicht das Sammeln der Daten, sondern sie zu nutzen steht beim Data Lake im Mittelpunkt. Die hohe Flexibilität dieses Konzeptes ermöglicht neben der Modernisierung vorhandener Analyselandschaften auch komplett neue, datenbasierte Geschäftsmodelle.“
Stephan Reimann, IT Specialist Big Data, IBM

Ein weiterer wichtiger Punkt ist die Anbindung von Analyse- und Reportingtools. Dies erfordert eine Hadoop SQL Engine welche mit Standard JDBC/ ODBC Treibern eingebunden werden kann. Entscheidend ist die ANSI-SQL Kompatibilität, die die Nutzung vorhandener BI-Werkzeuge auf Hadoop Daten erst ermöglicht.

Neben SQL gewinnen vor allem komplexe, statistische Analysen zum Beispiel mit R immer mehr an Bedeutung. Die Möglichkeit R-Code direkt auf Hadoop Clustern auszuführen, eröffnet dabei komplett neue Anwendungsfelder, erfordert jedoch spezielle Implementieru gen von R, da dieses ursprünglich für Einzelplatzsysteme entwickelt wurde. Neben den funktionalen Aspekten sind beim Betrieb eines Hadoop Clusters aber auch Multi-Tenancy und Workload-Management Funktionalitäten notwendig, um die verschiedenen analytischen Anforderungen voneinander abgrenzen und Ressourcen effizient zur Verfügung stellen zu können.

Klares Wasser statt trübe Brühe

Der beste Werkzeugkoffer nützt nichts, wenn nicht die einzelnen Tools geplant und mit Bedacht eingesetzt werden. Bei allen Chancen, die ein Data Lake bietet sollte das Thema Governance nicht außer Acht gelassen werden. Mehr denn je gilt es in der Flut an Information nicht den Überblick zu verlieren.

Es reicht daher nicht den Data Lake aufzubauen in dem man Daten aus allen zur Verfügung stehenden Quellen in das zentrale Repository hineinfüllt, sondern es geht darum, die Möglichkeiten dieses Konzeptes richtig zu nutzen. Ohne vernünftiges Information Management und entsprechende Governance wird dies nicht gelingen.

Fragen nach der Quelle, Vertrauenswürdigkeit, Schutz und dem Lifecycle Management der Daten sind wichtiger denn je. Welche Daten sind im Repository vorhanden, wie ist deren Definition und in welchen Kontext stehen sie zueinander sind Informationen welche einen weiteren Erkenntnis Gewinn erst ermöglichen. Leistungsfähige Datenintegrationstools mit intelligentem Metadatenmanagement ermöglichen die Kontrolle zu behalten und eine Nachvollziehbarkeit der Verarbeitungs- Prozesse zu gewährleisten.

Der Schatz im Datensee

Der Data Lake bietet viele Möglichkeiten, Daten und Informationen in Unternehmen gewinnbringend zu Nutzen. Er ermöglicht neben ganz neuen Anwendungsfällen und daraus resultierenden Geschäftsmöglichkeiten vor allem eine „Demokratisierung“ der Daten, oder anders gesagt: Die richtigen Daten zur richtigen Zeit zur Verfügung zu haben. Oder wenn dies mal nicht der Fall ist, diese einfach und schnell verfügbar zu machen. Und die richtige Entscheidungsgrundlage für eine wichtige Entscheidung ist oftmals Gold wert. Viel Erfolg bei der Schatzsuche im Datensee!

>> Zur Fortsetzung: Die Schatzsuche im Datensee geht weiter

Matthias Reiss und Stephan Reimann

www.ibm.com/de/de

Das Data Lake Konzept: Der Schatz im Datensee

Gemeinsamkeiten und Unterschiede zum Data Warehouse

Data Lakes: Kombination von Technologien

Der Einfluss von Technologie auf Geschäftsmodelle

Hadoop – Grundlagen für die erfolgreiche Implementierung

Daten und Analysen für Alle

Klares Wasser statt trübe Brühe

Der Schatz im Datensee

Weitere Artikel

Meistgelesene Artikel

Hacker löscht europäische Regierungsdatenbank vollständig

Hackergruppe erpresst Bosch mit gestohlenen Konstruktionsdaten

Enttäuschung nach Relaunch von Claude Fable 5

Anthropic streicht Fable 5 vorübergehend aus Abos

Vibe Coding ist keine gute Idee bei Java

IT Verlag

Wichtige Links

Kontakt