Big-Data-Analyse mit Hadoop: Schnell, kostengünstig, flexibel

Architecture onlineDen Wert von Big-Data-Analytics-Projekten stellt heute niemand mehr infrage. Der US-Analyst Tom Davenport postuliert in seinem aktuellen Buch „Big Data at Work“ Kosteneinsparungen, schnellere und bessere Entscheidungen, neue Produkte und Services als wichtigste Vorteile der Analyse großer polystrukturierter Datenbestände. 

Erst nach und nach beginnt dagegen Hadoop, sich seinen Weg in die deutsche Unternehmenswelt zu bahnen. Dabei ist das Open-Source-Framework – mit der passenden analytischen Infrastruktur – ein fast idealer Partner für Big Data Analytics. 

Anzeige

Neue technologische Möglichkeiten sowie dramatisch veränderte Geschäftsanforderungen stellen CIOs vor neue Aufgaben. Die Modernisierung und Konsolidierung der analytischen Architektur stehen ganz oben auf der Agenda. „Kann Open-Source-Software meine Total Cost of Ownership tatsächlich signifikant senken?“, „Wie kann mir In-Memory-Verarbeitung Vorteile in Geschäftsprozessen ermöglichen?” – Solche und ähnliche Fragen müssen sich die IT-Verantwortlichen in Unternehmen zunehmend stellen.

In vielen Fällen ist eine grundlegende Modernisierung der IT-Architektur fällig, um sie für Big Data fit zu machen. Und hier kommt Hadoop ins Spiel. Hadoop ist heute als kostengünstige Lösung für die verteilte Speicherung und parallele Verarbeitung von sehr großen polystrukturierten Datenbeständen ein integraler Bestandteil der Big-Data-Anwendungslandschaft. Die Vorteile liegen auf der Hand: Hadoop bietet einen De-facto-Standard, ist branchenübergreifend und kostengünstig nutzbar. 

Ein Paradigmenwechsel steht bevor

Hadoop erfüllt die besten Voraussetzungen für Big Data Analytics – und zwar mit folgenden Funktionalitäten:

  • Parallel Processing: Das Distributed-Computing-Modell sorgt dafür, dass riesige Datenvolumen schnell verarbeitet werden können.
  • Skalierbarkeit: Die Systeme lassen sich ganz einfach durch Hinzufügen von Knoten erweitern, und das praktisch hardwareunabhängig.
  • Speicherflexibilität: Im Gegensatz zu herkömmlichen relationalen Datenbanken müssen Daten nicht aufbereitet werden, um sie zu speichern; auch unstrukturierte Daten werden problemlos gespeichert.

Hadoop läutet den nächsten Paradigmenwechsel in der IT-Welt ein: Da die Anforderungen an die Plattform gering sind, können Unternehmen kostengünstige Standardhardware einsetzen. Auf diese Weise befreien sie sich gleichzeitig von der Bindung an einen bestimmten Datenbankanbieter. 

Angesichts der Vorteile sehen die Prognosen für die weitere Entwicklung des Open-Source-Frameworks sehr positiv aus. IDC geht von einem Jahreswachstum von 60,2 Prozent auf 812,8 Millionen US-Dollar im Jahr 2016 aus. Kommerzielle Hadoop-Distributionen wie Cloudera oder Hortonworks bekommen die volle Aufmerksamkeit der großen Unternehmen: So hat Intel jüngst 740 Millionen US-Dollar für einen Anteil von 18 Prozent an Cloudera investiert, ein Börsengang steht in Aussicht. 

Entlastung des klassischen DWH

Kosteneinsparungen gehören zu den wichtigsten Vorteilen beim Einsatz von Hadoop. Unternehmen profitieren von einem einfach skalierbaren, kostengünstigen Massenspeicher, der lediglich für einen Bruchteil dessen zu haben ist, was alternative Lösungen (wie NAS, Engineered Systems, Enterprise Data Warehouses oder SAN) in der Regel kosten. Hadoop ist also gleichzeitig kostengünstige Storage- und Computing-Plattform. 

Hadoop ist allerdings kein Ersatz für eine Datenbank im herkömmlichen Sinn. In Hadoop werden Daten vorverarbeitet und veredelt, bevor sie in das klassische Enterprise Data Warehouse (DWH) eingespielt werden. Dies entlastet das DWH und befreit Ressourcen, die bislang für ETL-Aufgaben gebunden waren. 

In-Memory als Turbo für Big Data

Hadoop verfügt zwar über das MapReduce-Framework zur parallelen Verarbeitung großer Mengen strukturierter und insbesondere unstrukturierter Daten, für Big Data Analytics reicht dies alleine jedoch noch nicht aus. Benötigt wird eine In-Memory-Verarbeitung, die den Einsatz moderner Analyseverfahren wie Advanced Statistics, Data Mining, Machine Learning, Text Mining oder Empfehlungssysteme zulässt beziehungsweise beschleunigt. Mit diesem Ansatz wird die Zeit für die Erstellung eines prädiktiven Modells von Stunden auf Minuten reduziert. Zudem bietet die In-Memory-Technologie einen besseren Zugriff auf die Daten und eine effektivere Interaktion, analytische Modelle lassen sich „on the fly“ anpassen.

Mit einer kommerziellen Distribution sind auch „Einsteiger“ in der Lage, schnell und unkompliziert auf die neue Technologie umzustellen, denn sie bekommen ein Programmpaket, das genau auf ihre Aufgabenstellung abgestimmt ist. Darüber hinaus stehen den Unternehmen Support durch den Distributor ebenso wie distributionsspezifische Features (zum Beispiel Administrationstools) zur Verfügung, die einen echten Mehrwert bieten.

Ein nicht zu vernachlässigender Punkt ist auch die Einbindung in die vorhandene IT-Landschaft. Die meisten Unternehmen beginnen heute nicht auf einer „grünen Wiese“, wenn es um Analytics geht. In der Regel sind bereits mehr oder weniger ausgebaute Infrastrukturen vorhanden –, und es gilt nicht zuletzt, auch das Know-how der Anwender zu nutzen. Idealerweise ist Hadoop für den Endanwender weitgehend transparent und verlangt kein Umlernen. Somit lässt sich Hadoop also unkompliziert in die Unternehmens-IT integrieren. In Verbindung mit Big-Data-Analytics-Lösungen wie denen von SAS erhalten Unternehmen eine Analytics-Plattform, mit der sich Massendaten in Echtzeit auswerten lassen.

SAS Hadoop klein

Die Einsatzszenarien für Hadoop umfassen:

  1. Datenmanagement
  2. In-Database Processing
  3. In-Memory-Technologie/High-Performance Analytics

Über das klassische Data Management hinaus bieten die beiden letzten Punkte weitere Möglichkeiten der performanten Datenverarbeitung. Beim In-Database Processing wird (analytische) SAS Funktionalität direkt im Hadoop-Cluster ausgeführt. Somit lassen sich Ereignisse wie Kündigungen, Betrugsfälle oder Materialfehler recht genau vorhersagen, ohne dass dafür Daten bewegt werden müssen. Mit High-Performance Analytics können auf Basis einer Datenhaltung in Hadoop sehr leistungsstarke analytische Modelle entwickelt werden.

USA als Vorreiter in Sachen Hadoop

Bei der Akzeptanz für Hadoop-Technologie hinkt Deutschland noch etwas hinterher. Zwar geht auch hierzulande der Trend dahin, dass Hadoop zunehmend in die IT-Landschaft integriert wird. Allerdings sind deutsche Unternehmen noch wesentlich zögerlicher als Unternehmen in den USA, wo große Hadoop-Cluster im Produktivbetrieb bereits alltäglich sind. Etablierte Unternehmen wie Citi oder Wells Fargo setzen parallel zu bestehenden Speicher- und Verarbeitungsfunktionalitäten für Analytics beachtliche Hadoop-Projekte ein.

Am Thema Hadoop kommt zwar niemand vorbei, jedoch gibt es in Deutschland und Europa bislang kaum Hadoop-spezifisches Know-how. Vorreiter bei der Einführung von Hadoop sind die Internetunternehmen. Aber das Thema kommt langsam auch im Handel, in der Telekommunikationsbranche, in der Industrie oder sogar in der Versicherungsbranche an. Wesentliche Voraussetzung für den erfolgreichen Einsatz der neuen Technologie ist die Bereitschaft, die IT-Strategie auf Hadoop abzustimmen. 

SAS hilft Unternehmen dabei, zum Beispiel mit Lösungen wie SAS In-Memory Statistics for Hadoop und über Partnerschaften mit Hortonworks und Cloudera. 

Fazit

Unternehmen setzen mehr und mehr auf moderne Analysetechnologien, um sich Wettbewerbsvorteile zu sichern. Damit einhergehend verändern sich die Daten und die darunterliegende Infrastruktur signifikant. Das neue analytische Ökosystem basiert auf verschiedenen Technologiefaktoren, wobei Big Data, Hadoop und moderne Analytics als Eckpfeiler gelten dürfen. Wenn diese drei Faktoren zusammenspielen und das Open-Source-Framework als „Big-Data-Betriebssystem“ genutzt wird, sindUnternehmen bestens gerüstet, um aus ihren Daten ein Maximum an Geschäftswert zu ziehen. 

Hans-Joachim Edert, Senior Solutions Architect bei SAS Deutschland

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.