Zunehmender Bedarf an agileren Systemen

Storage im Zeitalter von Big Data und Analytik

13. Oktober, 2022
05:46

Diese kalte Schicht ist in der Regel ein Data Warehouse oder eine Kombination aus HDFS und Spark. Eines der Hindernisse für Hadoop in einer physischen Infrastruktur mit lokalem Speicher ist, dass man für die Erweiterung der Speicherkapazität auch Rechenkapazitäten hinzufügen musste – wiederum aufgrund der engen Kopplung von CPU und Kapazität in Shared-Nothing-Architekturen, was in Bezug auf die tatsächlichen Kosten und die Verwaltung kostspielig war. Diese Architektur ähnelt vom Konzept her der hyperkonvergenten Infrastruktur, bei der man für mehr Rechen- oder Speicherkapazität sowohl Festplatten als auch Server kaufen muss.

Aus den Herausforderungen von Hadoop ergaben sich zwei wichtige Ergebnisse. Zum einen wendeten sich Unternehmen der Objektspeicherung als kostengünstiger Speicher für Big Data zu. Die S3-API wurde schnell zum Industriestandard, der es Unternehmen ermöglicht, Daten in fast jedem Objektspeicher zu speichern, abzurufen, aufzulisten, zu löschen und zu verschieben. Zum anderen kam ein technologischer Durchbruch in jüngerer Zeit in Form der DASE-Architektur (Disaggregated Shared Everything). Diese ermöglicht es, Cluster-Speicher unabhängig von der Rechenleistung zu skalieren, um die Kapazitäts- und Leistungsanforderungen von Anwendungen besser zu erfüllen.

Das tiefe Ende des Data Lake

Eine weitere Erfindung, die die moderne Speicherung vorangetrieben hat, ist das Konzept des Data Lake, bei dem die zur Analyse anstehenden Daten in ihrem Rohformat gespeichert werden – in der Regel auf einem verteilten Dateisystem.

Der schwierigste Teil jedes Business Intelligence- oder Datenanalysesystems besteht darin, die Daten aus ihrem Rohformat in ein Format zu bringen, in dem sie leicht abgefragt werden können. Traditionell wurde dies durch einen Prozess namens Extract, Load, and Transform (ETL) bewerkstelligt. Dieser Prozess wurde zum aktuellen Ansatz von ETL geändert, bei dem die Transformation auf der Abfrageebene stattfindet. Dadurch können verschiedene Anwendungen auf die Rohdaten zugreifen und nur die für sie erforderlichen Transformationen durchführen.

Spark wurde für die Arbeit mit Data Lakes entwickelt und ist schnell und flexibel; es lässt sich in eine Vielzahl von Data Lakes integrieren und unterstützt eine große Anzahl von Sprachen. Unternehmen können Scala, SQL oder Java sowie Jupyter Notebooks verwenden, die es auch weniger fortgeschrittenen Benutzern ermöglichen, fortgeschrittene Aufgaben auszuführen. Spark verwendet Speicher, um Daten zu verknüpfen, und kann wie ein Scale-Out-Data-Warehouse agieren, wobei die Kosten wesentlich geringer sind. Die schnelle Akzeptanz und die weit verbreitete User-Community haben dazu beigetragen, dass Spark zu einem der beliebtesten Datenanalysetools der heutigen Zeit avanciert ist.

Neben den Frameworks für die Datenanalyse in großem Maßstab haben sich jedoch auch die zugrundeliegenden Speichermedien erheblich verändert, die die Skalierung, Geschwindigkeit und das Volumen der Datenanalyse ermöglichen. Als Hadoop entwickelt wurde, war es auf sehr dichte, sehr günstige mechanische Festplatten mit 7.200 U/min ausgelegt. Solid-State-Speicher haben sich durch Protokolle wie NVMe, die extrem niedrige Latenzzeiten bieten, und sehr dichte SSDs zu viel günstigeren, dichteren und schnelleren Speichern entwickelt. Diese Geschwindigkeit, kombiniert mit Kostensenkungen bei SSDs, bedeutet, dass Unternehmen hoch skalierbaren und erschwinglichen All-Flash-Speicher zur Unterstützung ihres Data Lake haben.

Die Dinge werden nie mehr so sein wie bisher

VAST Data fasst abschließen zusammen: Der Speicher hat sich im Laufe der Jahre stark weiterentwickelt. Er ist schneller geworden, lässt sich viel besser skalieren und wurde von der zugrundeliegenden Hardware entkoppelt. Die nächste große Herausforderung ist die Frage, wie man die Daten, die sich in diesem Speicher befinden, schützt, verwaltet und aussagekräftige Erkenntnisse daraus zieht. Die DASE-Architektur von VAST Universal Storage ermöglicht es Unternehmen, von der Echtzeit-Speicherleistung für alle Anwendungsfälle der Datenanalyse zu profitieren, von Data-Warehouse-Analysen und Ad-hoc-Abfragen bis hin zu komplexen Data-Science-Aufgaben.

Seiten: 12