Daten-Trends 2022: Machine Learning, Data Lakes und Open Source

4. Dezember, 2021
15:16

Instaclustr, Managed-Platform-Anbieter für Open-Source-Technologien, sieht drei Trends, die die Datennutzung im Jahr 2022 prägen werden. Dazu zählen der ML-Einsatz im Datenbankbereich, Data Lakes und Data Mesh sowie neue Angebote der Open-Source-Community.

2022 steht im Zeichen einiger transformativer Trends in der Datennutzung. Unternehmen können leistungsstarke KI- und ML-Predictive-Funktionen in Datenbanken erwarten. Auch die Verwendung von Data Lakes wird zunehmen, wobei die Datenintegration stärker in den Mittelpunkt rückt. Dabei wird das Konzept eines dezentralisierten „Data Mesh“ an Bedeutung gewinnen. Nicht zuletzt werden auch die Open-Source-Communities im Bereich Datenmanagement und -analyse ihre Aktivitäten verstärken.

Die drei zentralen Trends, die Instaclustr sieht, im Überblick:

1. Trend: ML-Nutzung im Datenbankbereich

Das Maschinelle Lernen (ML) und die prädiktive Analyse ermöglichen neue Ansätze im Bereich der Informationstechnologie. 2022 wird dies verstärkt auch auf Datenbanken zutreffen. Für Daten- und Analyseexperten ist die ML-Nutzung eine wichtige Entwicklung – vor allem im Hinblick auf die Komplexität der Datenbankverwaltung. Die Herausforderungen sind dabei das Datendesign, die Datennutzungsmuster und die Speicherverwaltung. Datenbankadministratoren müssen traditionell die Traffic-Patterns analysieren, das Speicherwachstum messen und dann ihre Erkenntnisse anwenden, um performante Abfragen zu erstellen. Im Gegensatz dazu können ML-gestützte Lösungen Datenindizes erstellen, eine Neuindizierung durchführen und den Speicher mit Hilfe von Vorhersagemodellen verwalten. Vorhandene ML-Produkte wie HypoPG und GitHub Copilot verfolgen bereits diesen Ansatz. Es ist nur eine Frage der Zeit, bis ML-Trainingssätze und iterative Verbesserungen zu qualitativ hochwertigen Vorhersageindikatoren und -ergebnissen führen werden. Viele Fortschritte auf diesem Weg werden sich im Jahr 2022 einstellen.

Während KI- und ML-gestützte Indizierung, Workloads und Kapazitätsverwaltung recht vielversprechend sind, wird sich andererseits die Begeisterung für AIOps abkühlen. AIOps-Produkte sind zwar bereits auf dem Markt, aber die Einsatzmöglichkeiten bleiben bisher hinter den ursprünglichen Erwartungen zurück. Auch hier gilt: KI und ML sind nur so gut wie ihr Trainingsset, und AIOps-Verfahren werden sukzessive eine stärkere Verbreitung finden, allerdings wahrscheinlich nicht im kommenden Jahr.

2. Trend: Data-Lake- und Data-Mesh-Nutzung

Data Lakes spielen eine wichtige Rolle für Analysen und die Datentransparenz. 2022 wird das Ökosystem rund um Data Lakes wachsen, da die Unternehmen eine stärkere Datenintegration anstreben. Bei der Integration von Daten aus Drittanbieter-Systemen und Echtzeit-Transaktionen in die Data Lakes von Unternehmen werden Technologien wie Apache Kafka und Pulsar an Bedeutung gewinnen. Zudem werden Frameworks wie Debezium und Kafka Connect auch die Konnektivität von Data Lakes unterstützen.

Darüber hinaus wird sich auch das Data-Mesh-Konzept zunehmend durchsetzen. Es basiert auf den Prinzipien moderner verteilter Architekturen. Unternehmen verwenden Daten für unterschiedliche Zwecke: Beispiele sind BI oder ML-Predictions. Mit Data Mesh kann das entsprechende Team die Verantwortung für die jeweils benötigten Daten übernehmen.

3. Trend: Open-Source-Nutzung

Einige Anbieter von Open-Source-Lösungen haben in den letzten Jahren Data-Layer-Technologien auf eine eher proprietäre Lizenzierung umgestellt. Gleichzeitig haben aber Open-Source-Communities im Umfeld dieser Technologien die Mittel erhalten, robuste Fork-Versionen zu unterstützen und Projekte ohne die ursprünglichen Anbieter voranzutreiben. Ein Beispiel hierfür ist Elasticsearch und die Abkehr von der reinen Open-Source-Lizenzierung. Es führte dazu, dass die Community ihre Stärke durch die Veröffentlichung von OpenSearch, der verteilten Open-Source-Such- und Analyse-Suite, schnell unter Beweis stellen konnte. 2022 wird sich das Spannungsverhältnis zwischen diesen beiden Lösungsszenarien zuspitzen. Im Moment ist zu beobachten, dass viele Nutzer vollständig quelloffene Versionen präferieren.

Für Unternehmen ist es von entscheidender Bedeutung, dass sie zum einen alle Lizenzänderungen bei Lösungen für Datentechnologien und zum anderen auch alle Open-Source-Optionen kennen. Wenn die Communities Lösungen wieder stärker in den Open-Source-Bereich bringen, wird dies künftige Lizenzierungsprobleme verhindern und sicherstellen, dass wichtige Funktionen für alle verfügbar bleiben.

„Vom Datenbankbetrieb über Data-Lake-Integrationen bis hin zur Data-Mesh-Nutzung werden Daten- und Analysetools und -verfahren im Jahr 2022 erhebliche Fortschritte machen“, erklärt Ben Bromhead, Chief Technology Officer bei Instaclustr. „Unternehmen sollten vorausschauend planen, wie sie diese Trends am besten nutzen und sich auf die kommenden Entwicklungen vorbereiten können. Damit können sie dann schnell und unmittelbar von den neuen Möglichkeiten profitieren und die Datennutzung auf ein völlig neues Niveau heben.“

www.instaclustr.com

Daten-Trends 2022: Machine Learning, Data Lakes und Open Source

1. Trend: ML-Nutzung im Datenbankbereich

2. Trend: Data-Lake- und Data-Mesh-Nutzung

3. Trend: Open-Source-Nutzung

Artikel zu diesem Thema

Weitere Artikel

Meistgelesene Artikel

Hackergruppe erpresst Bosch mit gestohlenen Konstruktionsdaten

Anthropic streicht Fable 5 vorübergehend aus Abos

Vibe Coding ist keine gute Idee bei Java

Nach Massenentlassungen: Zuckerberg verordnet Meta-Teams wieder Spaß

Fehler eingeräumt: Mark Zuckerberg bedauert Meta-Umbau

IT Verlag

Wichtige Links

Kontakt