Anzeige

Anzeige

VERANSTALTUNGEN

Software Quality Days 2020
14.01.20 - 17.01.20
In Wien, Hotel Savoyen

eoSearchSummit
06.02.20 - 06.02.20
In Würzburg, Congress Centrum

DSAG-Technologietage 2020
11.02.20 - 12.02.20
In Mannheim, Congress Center Rosengarten

E-commerce Berlin Expo
13.02.20 - 13.02.20
In Berlin

SMX
18.03.20 - 19.03.20
In München

Anzeige

Anzeige

Big Data & more

Big Data oder Data Analytics sind einige der größten Herausforderungen für die IT unserer Zeit. Viele Unternehmen befinden sich inmitten einer Umstellung auf eine datengesteuerte Ausrichtung ihrer Organisation und sind auf der Suche nach der dazu passenden Dateninfrastruktur. Verschiedene Ansätze versprechen Vorteile – doch vielerorts hakt es schon beim Verstehen der Begrifflichkeit. 

Wer weiß schon im Detail, wo der Unterschied zwischen Data Lake, Data Vault und Data Mart liegt? Oder wie genau ein Data Lake und das Data Warehouse zusammenarbeiten?

Generell versuchen alle Ansätze für die Dateninfrastruktur Wege zu finden, effektiv Erkenntnisse aus Daten zu generieren. Um den besten Ansatz für ein Unternehmen in Bezug auf die Dateninfrastruktur zu finden, lohnt es sich, die Optionen und ihre Vorteile genau zu kennen. Was also sind Data Lake, Data Vault, Data Mart und Data Warehouses und wofür werden Sie verwendet?

1. Data Lake – Eine große Sammlung von Rohdaten

Data Lakes sind riesige Datensammlungen, die von nicht organisierten oder verarbeiteten Rohdaten bis hin zu unterschiedlichen Ebenen von kurierten Datensätzen reichen. Einer der Vorteile, Daten in einem Data Lake zu speichern, besteht darin, dass unterschiedliche Nutzer auf die für sie geeigneten Daten zugreifen können. Dies macht einen Data Lake perfekt für einige der neueren Anwendungen von Daten wie Data Science, Künstliche Intelligenz und Machine Learning.

Data Lakes bieten eine sehr gute Möglichkeit, Massen von Rohdaten auf skalierbaren Speicherlösungen abzulegen, ohne den Versuch zu unternehmen, traditionelles ETL (Extraktion/Transformation/Laden) oder ELT (Extraktion/Laden/Transformation) zu verwenden, die bei diesem Volumen teuer sein können. Für traditionellere Analysen strukturierter Daten kann ein Data Lake jedoch auch etwas unhandlich und verwirrend sein, weshalb viele Unternehmen hierfür andere Lösungen nutzen. In der Hierarchie einer komplexen, mehrschichtigen Dateninfrastruktur werden Data Lakes eher als erste Ebene und Grundlage für einen strukturierteren Ansatz der Datenverarbeitung genutzt, etwa beim Data-Warehouse.

2. Das Data Warehouse: benutzerfreundlicher Zugang zu Daten

Das Data Warehouse dient als Quelle für Ableitungen aus den Rohdaten und ist für viele Unternehmen heute ein Kernelement ihrer Datenstrategie. Im Gegensatz zum Data Lake, der einfach nur ein großer Pool an Daten ist, ist ein Data Warehouse, oder ein Enterprise Data Warehouse, wie es manchmal genannt wird, ein kurierter Datenspeicher für aktuelle und historische Daten. Ein Data Warehouse ermöglicht Anwendern den Zugang zu den richtigen Informationen in einem benutzerfreundlichen Format, wie etwa monatlichen Reports. Wenn Daten in eine Data Warehouse-Umgebung gelangen, werden sie bereinigt, transformiert, kategorisiert und gekennzeichnet, je nachdem wie die Nutzer dies benötigen. Dies erleichtert die Verwaltung, Nutzung und Überwachung der Unternehmensdaten. Auch die Automatisierung, ein heute wichtiger Teil der Dateninfrastruktur, kommt auf der Ebene des Data Warehouses ins Spiel.

Die Automatisierung von Datenprozessen ist für die meisten Unternehmen heute eine wichtige Anforderung an das Data Warehouse, da das Volumen und die Geschwindigkeit, mit der Daten generiert werden, die manuelle Verarbeitung in vielen Umgebungen praktisch unmöglich macht. Auch aus Sicht der Compliance bietet die Automatisierung der Datenprozesse in einem Data Warehouse viele Vorteile, genauso wie beim „Time to Value“, also der Zeit von der Entstehung der Daten bis zu deren wertschöpfenden Nutzung.

A Data Warehouse Lifecycle 400

Die Data-Warehouse-Automatisierung hilft IT-Teams, Data Warehouse -Automation-Software kombiniert die Verwendung von Metadaten, Data Warehouse Methoden, Mustererkennung und mehr, um Entwicklern zu helfen, Data Warehouse Designs und Codierung durch den Einsatz von Data Warehouse-Design-Tools und zeitsparenden Entwicklungsassistenten und -vorlagen automatisch zu generieren. Insofern bietet Automatisierung viel mehr als bisher, indem sie viel schneller, mit weniger Projektrisiko und niedrigeren Kosten liefert und verwaltet. Zudem entfallen wiederholte Design-, Entwicklungs-, Bereitstellungs- und Betriebsaufgaben innerhalb des Data Warehouse Lebenszyklus.


3. Data Mart: eine kleinere Teilmenge eines Data Warehouses

Ein Data Mart ist eine spezifische Teilmenge eines Data Warehouse, die oft für kuratierte Daten zu einem bestimmten Themenbereich verwendet wird und die in kurzer Zeit leicht zugänglich sein müssen. Aufgrund seiner geringeren Größe und Komplexität ist ein Data Mart oft schneller und kostengünstiger zu bauen als ein komplettes Data Warehouse. Durch diese limitierte Größe kann ein Data Mart aber keine Daten aus dem gesamten Unternehmen erstellen und verwalten.

B Data Mart Infrastructure UK 600

Data Marts: Durch die Automatisierung von Design, Entwicklung, Bereitstellung und Betrieb von Data Marts können Unternehmen schnell Business Intelligence-Lösungen bereitstellen, ohne Qualität, Leistung, Agilität oder Governance einzubüßen.


4. Data Vault: ein weiterentwickelter Ansatz für das Data Warehouse

Ein Data Vault ist ein spezieller Ansatz des Data Warehouses, der einige Herausforderungen des Data Warehouse löst, die bei der Verarbeitung von Daten innerhalb des Data Warehouses entstehen. Der Unterschied eines Data Vaults zu einem Data Warehouse besteht darin, dass Data Vaults bei der Verarbeitung keine Bewertung vornehmen, welche Daten „wertvoll“ sind und welche nicht. In einem Data Warehouse wird eine solche Entscheidung typischerweise bei der Datenaufnahme getroffen. Dies bietet mehr Flexibilität, was bei der Verarbeitung von Daten aus sich ändernden Datenquellen hilft. Ein Data Vault kann somit einen ungefilterten Blick auf die Fakten liefern.

Für Unternehmen mit großen, wachsenden und vielen unterschiedlichen Datensätzen kann der Ansatz eines Data Vaults für ihr Data Warehouse dabei helfen, das Ungetüm großer Datenmengen zu einer verwaltbaren Lösung zu zähmen. Die Einrichtung eines Data Vaults kann jedoch sehr komplex und zeitaufwändig sein. Hier setzt die Automatisierung von Data Vaults an, die sich automatisch um einen Großteil der Dateninfrastruktur eines Unternehmens kümmern kann.

Um den strengen Anforderungen der Methodik zu entsprechen, ist die Automatisierung von Data Vaults eine wichtige Komponente. Damit die Automatisierung des Data Vaults einen hohen Prozentsatz der Dateninfrastruktur eines Unternehmens abdecken kann, werden heutzutage die standardisierten Vorlagen und die hohen Anforderungen der Data Vault-2.0-Methodik genutzt. Diese Methodik stellt den Kern eines Data Vaults dar, der zuverlässige und konsistente Metadaten verwendet, um sicherzustellen, dass alle Informationen, einschließlich personenbezogener Daten jederzeit überwacht werden können.

C Data Vault Modelling Metho 600

Die Methode des Data Vault 2.0 Modellings ist ein hybrider Ansatz, der die besten Aspekte des Designs von Third Normal Form (3NF) und Sternschema kombiniert. Obwohl fertige Datenspeicher viele Vorteile bieten, erfordert das Entwerfen und Entwickeln von Hand viel Zeit, Aufwand und Geld. Die Automatisierung von Datentresoren hilft, schnell und risikoarm in die Produktion zu gelangen. Das IT-Team kann neue Lösungen liefern und bestehende so schnell ändern, wie das Unternehmen sie benötigt.

Zusammenfassung

Es gibt zahlreiche Ansätze für eine Dateninfrastruktur, die Unternehmen wählen können, um ihre Daten nicht nur sicher, sondern auch gewinnbringend zu speichern. In modernen Unternehmen kommt es heute vornehmlich darauf an, dass alles den schärferen Richtlinien entspricht und das Unternehmen gleichzeitig schnell Mehrwert aus den Daten schöpfen kann.

Ein umfassendes Verständnis dafür, wie verschiedene Ansätze zusammenpassen, kann für IT-Manager und Führungskräfte von unschätzbarem Wert sein.

Rob Mellor, Vice President und General Manager EMEA
Rob Mellor
Vice President und General Manager EMEA, WhereScape
GRID LIST
Datenanalyse

In drei Schritten zur datengetriebenen Unternehmenskultur

Der Begriff „data-driven“ hat sich mittlerweile zu einem wahren Trend entwickelt. Aber…
Projektmanagement

8 goldene Regeln für ein erfolgreiches BI-Projekt

Oft scheitern Projekte aus vermeidbaren Gründen. Verantwortlichkeiten sind unklar.…
Datamanagement

Maßnahmen für eine optimale Datenqualität

Mehr als jedes dritte Unternehmen ist mit der Qualität seiner erfassten und bearbeiteten…
Datenmanagement

Gute Daten, schlechte Daten

Der Begriff ‚Big Data‘ ist nun schon einige Jahre alt. Er wurde Mitte der 2000er Jahre…
Datamanagement

Das Potential von Datenmanagement für TK-Anbieter

Im Laufe der Zeit generieren und speichern Telekommunikationsanbieter aufgrund ihrer…
Big Data Trends 2020

Big Data Trends 2020: Analytics reicht nicht mehr aus

Eines steht fest: Der Umgang mit Daten wird in Zukunft weit über Suche, Dashboards und…