Big Data: Definition, Treiber, Nutzen und Markt

1. Juli, 2012
18:08

Big Data wird über vier Eigenschaften definiert: das Datenvolumen, die Vielzahl von Datenquellen, die Geschwindigkeit der Datenproduktion und die steigende Anzahl von Nutzern, die sich mittels Analysen die Potenziale von Big Data erschließen wollen. Nachfolgend skizzieren wir den Inhalt des Strategic Bulletins Big Data.

Definition von Big Data

Big Data bedeutet nicht nur ein riesiges, immer größer werdendes Datenvolumen, sondern aufgrund der Vielzahl von Datenquellen auch einen Mix aus strukturierten und unstrukturierten Daten mit komplexen Beziehungen untereinander. Heute schätzt man, dass 90% aller Daten im Big Data unstrukturiert sind. Die wahre Flut von Daten wartet aber nicht nur im Web auf uns. Die Menge und Diversität der Quellen ist in der Tat mannigfaltig: Neben den Quellen imWeb wie Portalen,Web-Applikationen, Social Media, Videos, Photos, Lokalisierungsdaten, um nur einige zu nennen, finden sich viele Quellen in Branchen bezogenen Medien, beispielsweise im Gesundheitswesen (20 TB Daten pro Patient ist eine realistische Größe) und in der Wissenschaft (beispielsweise beim CERN in Genf), wo in den letzten Jahren das Datenvolumen geradezu explodiert ist.

Die prominentesten Produzenten von Big Data sind soziale Medien (allein fast 900 Millionen Facebook-Mitglieder) und das mobile Internet mit seinen Verbindungsdatensätzen (call detail records) und Lokalisierungsdaten. Daneben gibt es viele weitere Datenproduzenten wie intelligente Ablesegeräte und Sensoren bei Strom, Wasser, Verkehr und Mautdaten, Maschinen-erzeugte Daten über Verhalten und Leistung von Servern, Netzwerken und anderer Rechner-Infrastruktur, RFID-Information in der Supply Chain, Zeiterfassungssysteme und viele andere.

Nutzen von Big Data

Für Unternehmen bietet die Analyse von Big Data die Möglichkeit, Wettbewerbsvorteile zu erzielen, Einsparungen und Umsatzsteigerungen zu realisieren und innovative, neue Geschäftsfelder zu schaffen. Das unterstreichen die folgenden ausgewählten Beispiele:

Optimierung und Personalisierung von Werbemaßnahmen und Steigerung von Cross- und Up-Selling aufgrund von besserem Kunden- und Marktwissen,
Besseres Risiko-Management in Zahlungs- und Handels-Strömen durch Entdeckung von Abweichungen und Unregelmäßigkeiten,
Aufbau flexibler und intelligenter Abrechnungssysteme in der Versorgung (Strom, Wasser, Gas) und Telekommunikation,
Erkennen von Interdependenzen und automatisierte Hypothesenbildung in Wissenschaft und Forschung

5 Nutzenpotenziale von Big Data

Wenn man sich diese Beispiele genauer anschaut, so lassen sich fünf Nutzenpotenziale erkennen: Transparenz durch Big Data, Testen aller Entscheidungen, Personalisierung in Echtzeit, verbesserte und optimierte Prozess-Steuerung und Automatisierung und innovative Informations-getriebene Geschäftsmodelle.

Trotz der Möglichkeiten, die Big Data bietet, muss man heute noch Vorsicht im Umgang mit Big Data walten lassen: Der Markt für Big Data ist noch jung und unreif. Es fehlt an Erfahrung, im Umgang mit Big Data, es fehlen Experten, die in den Unternehmen erfolgreich Big Data-Initiativen und Strategien aufbauen können, und die neuen Technologien zur Beherrschung von Big Data befinden sich auch erst in sehr frühen Entwicklungsphasen.

Wer allerdings jetzt nicht mit den Vorbereitungen zum Management von Big Data beginnt, der könnte in ein bis zwei Jahren den Anschluss verpasst haben und von seinen Mitbewerbern oder innovativen Neueinsteigern überholt werden, deren Geschäftsmodell durch Big Data-Nutzung effektiver ist und effizienter arbeitet. Man erinnere sich an Amazon, deren Geschäftsmodell anfangs belächelt und kritisiert wurde, die aber heute zu denMarktsiegern zählen.

Big Data Technologien

In Folge dieser Datenflut ist die traditionelle relationale Datenhaltung an ihre Grenzen gestoßen. Um die Petabytes und mehr von Daten zu lesen und zu durchsuchen, nutzt man heute analytische oder NoSQL (not only SQL) -Datenhaltungssysteme. Hier werden unterschiedliche Software- und Hardware-Technologien teilweise auch miteinander kombiniert: Objekt-Orientierung, Spalten- Orientierung, Parallelisierung, Datenkompression, In-Memory-Verarbeitung, massiv parallele Verarbeitung (MPP) über Rechner-Cluster und spezielle sogenannte Data Appliances, um die gängigsten zu nennen. Ein dritter Absatz zur Beherrschung von Big Data kommt vom OpenSource-System Hadoop, das das Potenzial hat, den Standard der Zukunft zu setzen.

Diese zu SQL alternativen Datenhaltungssysteme sind so konzipiert, dass Tuningaufwände, die in konventionellen Systemen notwendig sind und Zeit und Ressourcen kosten, nahezu entfallen. Die Datenhaltungslösung legt in der Regel Indizes automatisch an, analysiert und komprimiert die Daten selbständig und verteilt sie optimal über die Knoten. Intelligente Algorithmen fangen Server-Ausfälle auf und sorgen dafür, dass das System für Nutzer innerhalb weniger Sekunden ohne dessen Zutun wieder zur Verfügung steht. Solche Datenbanken lassen sich natürlich auch „as a Service“ mittels Cloud Computing betreiben.

Integrationswerkzeugen zur agilen Web- und Cloud-Integration

Big Data treibt auch neue Methoden und Technologien im Big Data Management. Beim Data Management geht es zwar immer noch um Integration, Lineage und Qualität, aber im Big Data kommt noch einiges hinzu: So ist eine neue Klasse von Integrationswerkzeugen zur agilen Web- und Cloud-Integration entstanden, um beispielsweise auch auf Datenquellen zuzugreifen, die keine API-Schnittstelle haben. Plattformen zur Datenintegration werden durch Selbstoptimierung beschleunigt und um Hadoop-Verarbeitung ergänzt. Daneben werden die bekannten Verfahren zum Data Management parallelisiert und Cluster-fähig, denn die Anforderungen an den Durchsatz steigen natürlich erheblich mit Big Data. Service-Orientierung der Infrastruktur und Verarbeitung in Echtzeit sind jetzt im Big Data unabdinglich geworden.

Die neue Rolle der Data Scientists

Die traditionellen BI-Werkzeuge erweisen sich ebenfalls als unzureichend für Big Data-Analytik. Data Discovery steht jetzt ganz vorne in der Bedeutung. Dazu gehören Filtern und Visualisieren von Daten, kollaborative Werkzeuge zur Teamarbeit, intuitive Benutzerschnittstellen und eine neue Generation von Geräten wie die Tablets, damit man in den Fachabteilungen produktiv und erfolgreich arbeiten kann. Dazu kommen neue analytische Methoden und Verfahren wie die Textanalytik. Dies ist eine neue Klasse von Analytik insbesondere für unstrukturierte Daten, die linguistische Verfahren mit Suchmaschinen, Text Mining, Data Mining und Algorithmen des maschinellen Lernens verbindet. Das alles ergibt ein komplett neues Arsenal für Analytik im Unternehmen.

Solche neuen Methoden und Technologien erfordern auch neue Rollen wie die der Data Scientists, die als Mittler zwischen der IT und den Fachabteilungen den weiteren Ausbau der Zusammenarbeit treiben, die Verarbeitung von Big Data fördern und helfen, die Potenziale von Big Data auch zu realisieren. Das erfordert auch neue Skills und eine Neuorientierung der IT: Die IT muss in den Zeiten von Big Data den Hauptfokus auf Data Management legen.

Das Strategic Bulletin können Sie bei uns kostenlos als PDF anfordern (42 Seiten, 2,3 MB).

Dr. Wolfgang Martin, Analyst, Wolfgang-Martin-Team

http://www.wolfgang-martin-team.net/

Daten Management it management

Big Data: Definition, Treiber, Nutzen und Markt

Weitere Artikel

Meistgelesene Artikel

Neues Botnet infiziert knapp 2 Millionen Android-Geräte

Die große Homeoffice-Illusion: Warum wir uns die Freiheit schönreden

“Außergewöhnlich”: Massiver Preisanstieg bei RAM

Shopify mit großen Login-Problemen am Cyber Monday

Shai-Hulud 2.0: Wie sich ein Supply-Chain-Wurm weiterentwickelt

IT Verlag

Wichtige Links

Kontakt