Zunehmender Bedarf an agileren Systemen

Storage im Zeitalter von Big Data und Analytik

13. Oktober, 2022
05:46

Facebook X LinkedIn Reddit WhatsApp Pocket

Datenanalytik und die Speichersysteme, die Datenanalytik-Workloads ermöglichen, haben sich im letzten Jahrzehnt stark weiterentwickelt. Zu Beginn der 2010er Jahre wurden Big-Data-Frameworks wie Hadoop mit den wachsenden Datenmengen immer beliebter.

Hadoop wurde ursprünglich als Batch Processing-, also Stapelverarbeitungs-Framework für semi-strukturierte Daten konzipiert und implementiert. Die Benutzer konzentrierten sich zunächst auf die Nachbearbeitung von Daten, wobei die Aufträge Stunden oder Tage dauern konnten.

Mittlerweile sieht die Lage nach Meinung von VAST Data jedoch anders aus: Die heutigen Arbeitslasten erfordern jedoch eine Plattform, die nicht nur die stapelorientierten Workloads, sondern auch Ad-hoc-/interaktive Abfragen und sogar Echtzeit-Analysen bewältigen kann. Hadoop und insbesondere HDFS (das Hadoop Distributed File System, das Dateien lokal auf den Knoten des Clusters speichert und gleichzeitig die Konsistenz verwaltet) wurde nicht für diese Anwendungsfälle konzipiert. VAST Data beobachtet daher, dass nun eine Umstellung auf agilere und leistungsorientiertere Systeme im Gange ist.

Das Hadoop-Erbe

Im Laufe der Zeit hat Hadoop an Popularität eingebüßt, aber die zugrundeliegenden Konzepte, die es eingeführt hat, wurden zum Kern moderner Datenanalytiksysteme wie Databricks und haben ein reiches Ökosystem von Analyseprojekten wie Hive, Kafka und Impala hervorgebracht. Zu den Hadoop zugrundeliegenden Konzepten zählen MapReduce als Computing-Paradigma, die enge Kopplung von Storage und Compute, um den Netzwerkverkehr zu reduzieren, und die Verwendung von handelsüblicher „Commodity“-Hardware zum Aufbau strukturierter und halbstrukturierter Analyseplattformen.

Hadoop wurde in den frühen 2000er Jahren bei Yahoo entwickelt. Die ursprüngliche Idee stammt aus zwei Google-Arbeiten („The Google File System“ und „MapReduce: Simplified Data Processing on Large Clusters“) und ermöglichte es Yahoo, die Verarbeitungsleistung zu erhöhen und gleichzeitig kostengünstige, handelsübliche Hardware zu verwenden. Hadoop war und ist ein Open-Source-Projekt von Apache, das es jedem Unternehmen oder Benutzer ermöglicht, die Software herunterzuladen und frei zu nutzen. Hadoop versprach, den Markt für Data Warehouse und Analytik, der lange Zeit eine Hochburg von Unternehmen wie Oracle, Teradata und IBM war, aufzumischen. Während MapReduce, ein Framework zur Datenparallelisierung, in der Technologiegeschichte verschwunden ist, ist HDFS als Dateisystem zur Unterstützung von Big-Data-Anwendungen wie Spark und Kafka nach wie vor weit verbreitet.

Als HDFS (Hadoop Distributed File System) ins Leben gerufen wurde, waren Festplatten schneller als Netzwerkadapter, so dass es als gemeinsam genutzter Cluster aus handelsüblichen Servern mit Direct-Attached Storage (DAS)-Geräten eingesetzt wurde. Dadurch konnte die Rechenleistung näher an die Medien gebracht werden. Zu dieser Zeit waren Solid-State-Laufwerke (SSDs) teuer und in ihrer Kapazität begrenzt, weshalb Festplatten (HDDs) zum Einsatz kamen. Außerdem waren die meisten Netzwerke noch auf Gigabit (1 Gbit/s) ausgelegt, was bedeutete, dass die einzige Möglichkeit zur Vermeidung von Netzwerkengpässen darin bestand, Speicher- und Rechenressourcen eng miteinander zu verbinden. Dieses Konzept, das als „Shared-Nothing“-Speicherarchitektur bekannt ist, wurde 2003 im White Paper zum Google File System vorgestellt. So können beispielsweise zwölf Festplatten etwa 1 GByte/Sek. liefern. Bei Verwendung eines Gigabit-Netzwerks ist der Durchsatz jedoch auf ca. 100 MByte/Sek. begrenzt, was das Netzwerk zu einem Engpass macht.

Als sich Big-Data-Systeme über MapReduce hinaus zu Echtzeitlösungen wie Spark und Kafka weiterentwickelten, musste der Speicher schneller werden und Datenanalysetechniken unterstützen. Außerdem musste er auf Tausende von Knoten skalierbar sein und eine nahezu unbegrenzte Kapazität bieten.

Verständnis der Lambda-Architektur und Big Data-Verarbeitung

Der Kern der meisten Big-Data-Workflows ist ein Muster, das Lambda-Architektur genannt wird. Diese Arbeitslast hängt von Ereignissen ab, die in großem Umfang eintreffen. In der Regel stammen diese Daten aus Quellen wie Protokolldateien oder IoT-Sensoren und fließen dann in eine Streaming-Plattform wie Kafka. Kafka ist eine Open-Source-Plattform für verteiltes Ereignis-Streaming, die diese Datenströme verarbeiten kann.

Ein Stream-Prozessor ist so etwas wie eine einzige Abfrage, die für alle durchströmenden Werte ausgeführt wird. Diese Abfrage fungiert als bedingte Aufteilung. So werden beispielsweise Sensordaten erfasst, damit eine bestimmte Aktion durchgeführt werden kann. Dies könnte in Form der Ausführung einer Funktion im Falle eines Computersystems oder der physischen Untersuchung eines Geräts durch einen Bediener geschehen. Der Rest der Werte wird in einer „kalten“ Schicht gestreamt, die eine umfassendere Analyse aller Werte für Trendanalysen und maschinelle Lerndienste ermöglicht.

Seiten: 12

Storage im Zeitalter von Big Data und Analytik

Das Hadoop-Erbe

Verständnis der Lambda-Architektur und Big Data-Verarbeitung

Sven

Breuner

Artikel zu diesem Thema

Weitere Artikel

Meistgelesene Artikel

15,8 Mio. Zugangsdaten von PayPal im Darknet angeboten

Ransomware-Attacke trifft britischen Telecom-Anbieter Colt

VW sperrt ID.3-Motorleistung hinter kostenpflichtigem Abo

Das Burnout-Paradox im Home Office

Massiver Starlink-Ausfall: Nutzer waren 2,5 Stunden offline

IT Verlag

Wichtige Links

Kontakt