Von Big Data zu Big Success|Analyse unstrukturierter Daten

BigDataBig Data ist zweifellos eines der IT-Buzzwords der letzten Jahre, auch wenn wir von einer einheitlichen Begriffsbestimmung nochweit entfernt sind. Gemeinsamer Kern der meisten Definitionsversuche von Big Data ist jedenfalls der Bezug auf große und wachsende Datenmengen, die mit herkömmlichen technischen Mitteln, insbesondere typischen relationalen Datenbankwerkzeugen, nicht mehr ohne Weiteres optimal verarbeitet werden können.

Gartner (2012) hat diese Quintessenz in seiner Definition mit Bezug auf die bekannten drei „V“ – „high volume, high velocity, high variety“ – weiter differenziert: Big Data sind demnach Informationsbestände, die aufgrund ihres hohen Datenvolumens, der großen Geschwindigkeit und der Vielfalt von Formaten und Formen, in denen sie anfallen, neue Formen der Verarbeitung erfordern, um aus ihnen Erkenntnisse und Entscheidungsunterstützung zu gewinnen.
 
Evolution statt Revolution
 
Big Data ist keine neue Problematik. So hat zum Beispiel InterSystems seine Technologien in den vergangenen 30 Jahren in Auseinandersetzung mit genau den Problemstellungen entwickelt, die sich auch heute im Zusammenhang mit Big Data stellen: das Beherrschen komplexer Szenarien, großer Datenmengen, kontinuierlicher Ströme von Massendaten oder zahlreicher Transaktionen pro Zeiteinheit.
 
InterSystems vertritt deshalb eine aus Anwendersicht pragmatische Position zu dem Thema: „Big Data“ betrifft heute Daten verschiedenen Umfangs und Formats, die gemeinhin nicht schon zentral verwaltet werden und die für das Geschäft eines Unternehmens wichtig sind oder sein können. Diese Daten – darunter etwa Office-Dokumente, PDFs, E-Mails, Instant-Messaging-Nachrichten oder Texte und Mediendateien aus Blogs und sozialen Netzwerken, aber auch von Maschinen oder Sensoren automatisch erzeugte Daten – können in allen Bereichen des Unternehmens anfallen. Ob es sich vom Volumen her dabei dann um Terabyts oder Exabyts an Daten handelt, ist eigentlich nachrangig. Die Problemstellung ist immer dieselbe – in Echtzeit Informationen zur Entscheidungsunterstützung zu generieren.
 
Die Bewältigung und Nutzung von Big Data ist demnach kein revolutionärer, sondern ein evolutionärer Prozess, der neue Chancen eröffnet, aber auchnach Veränderungen in den Geschäftsprozessen verlangt.Neues wird adaptiert, während Bewährtes beibehalten wird (BusinessContinuity),mit dem Ziel, dass ein Unternehmen dank eines immer besseren Blicks auf die aktuelle Unternehmenssituation schneller und effektiver auf marktrelevante Veränderungen reagieren kann (Business Agility).
 
Die Grenzen herkömmlicher Datenverarbeitungssysteme
 
Im Gegensatz zu klassischen, relationalen Daten erfordert die Verarbeitung von Big Data andere technologische Lösungen, als sie derzeit im Einsatz sind. Herkömmliche IT-Architekturen sind oft nicht in der Lage, die anfallenden Datenmengen in der nötigen Geschwindigkeit zu bewältigen und sind in der Regel nicht dafür ausgelegt, disparate Datenformate parallel zu handhaben. Dazu kommt die Notwendigkeit, statt Daten Informationen zu liefern. Smartere BI reicht da nicht länger aus. Unter dem Begriff Analytics subsumiert die Industrie inzwischen die verschiedenen Ansätze, automatisiert Informationen aus unstrukturierten Daten zu gewinnen. Und InterSystems bietet mit iKnow eine der leistungsfähigsten Technologien zur Analyse unstrukturierter Daten. Big Data und Analytics bilden schlicht ein kongeniales Paar.
 
Einige Aspekte rund um Big Data sollen anhand von Szenarien aus der Praxis näher erläutert werden, bei denen InterSystems-Technologie genutzt wird, um relevante Informationen aus großen Datenbeständen zu extrahieren.
 
Automatisch generierte Datenströme
 
Militärschiffe des spanischen Schiffsbauers Navantia besitzen ein integriertes Schiffsinformationssystem mit ausgefeilten Kontroll- und Überwachungsfunktionen verbunden mit Funktionen für Wartung, Bordtrainings und Beschädigungskontrolle. Das Caché-basierte System vernetzt das komplette Schiff und führt Konstruktions- und Designdaten des Schiffesmit Daten von Tausenden von Sensoren, Maschinen und anderen Systemen zusammen – statische, dynamische, historische und Echtzeitdaten. Um Schiffsbetrieb und Steuerung zu unterstützen, bietet das System grafische Darstellungen des Schiffes und seiner relevanten Elemente in verschiedener Detailtiefe (zwei- und dreidimensional), leistungsfähige Filtermöglichkeiten und Werkzeuge, um nach jeglicher Art von Informationen zu suchen. Die vom System laufend gesammelten Schiffsbetriebsdaten werden zudem genutzt, um weiterführende Informationen zu gewinnen. Sie werden Ausrüstungsdesignern und Instandhaltungsexperten für zukünftige Planungen zur Verfügung gestellt und sind Grundlage eines Simulationstrainings für das Instandhaltungspersonal.
 
Nicht relationale Datenstrukturen
 
Aber nicht immer hat man es mit relativ strukturierten Daten aus Sensoren oder Transaktionen zu tun. Ein Beispiel dafür liefert das geplante Gaia-Projekt der europäischen Weltraumbehörde ESA (European Space Agency). Gaia soll ab 2013 mittels Satellitendaten eine dreidimensionale Karte unserer Galaxie, der Milchstraße, erstellen und so mehr Wissen über ihre Zusammensetzung, Entstehung und Entwicklung liefern. Der Satellit soll dazu über einen Zeitraum von fünf Jahren ca. eine Milliarde Sterne rund 80 Mal erfassen und bei jedem Umlauf mittels verbesserter Zielkoordinaten genauer vermessen. Dabei werden Positionen, Farbe und Helligkeitsveränderungen der Zielobjekte sowie bei den 150 Millionen hellsten Objekten auch Spektralmessungen für die Radialgeschwindigkeitmit hoher Genauigkeit aufgezeichnet. Insgesamt werden für jedes der eine Milliarde Zielobjekte bis zu 1.000 Beobachtungen erfasst.
 
Der relationale Ansatz wäre gewesen, die täglich 50 bis 80 Gigabyte telemetrischer Daten erst einmal in BLOBs (Binary Large Objects) zu speichern, um sie dann für die Iterationsberechnungen mühsam wieder neu zu berechnen. InterSystems multidimensionale Technologie erlaubt es der ESA stattdessen, die Informationen in ihrer ursprünglichen Objektform mit allen zugehörigen Attributen zu persistieren und sie umgehend der für die Iterationsberechnung zuständigen Java-Lösung AGIS (Astrometric Global Iterative Solution) zur Verfügung zu stellen. In dem veranschlagten Zeitraum von nur wenigen Wochen werden so die astrometrischen Parameter für bis zu 500 Millionen Himmelskörper – entsprechend 50 Milliarden Java-Objekte – in insgesamt 40 Durchläufen (iterativ) errechnet. Relationale Datenbanken erwiesen sich als für diese Aufgabe wenig geeignet, wie William O‘Mullane, Science Operations Development Manager der ESA, im Gespräch mit Roberto V. Zicari auf www.odbms.org  berichtet.
 
Analytics für unstrukturierte Daten
 
In vielen Bereichen gewinnt zudem die Analyse von unstrukturierten Daten aus Texten, Bildern und Tonaufzeichnungen an Relevanz. Hier verbergen sich die so oft erwähnten 80 Prozent bislang nicht genutzter Daten. Moderne Technologien wie InterSystems iKnow überwinden Grenzen, die bislang der semantischen Analyse gesetzt waren. Schon einfache Aufgabenstellungen, wie das Anreichern strukturierter Daten mit Informationen aus Freitextfeldern, stellte IT-Systeme bislang vor unlösbare Probleme. Mit iKnow konnte genau diese Herausforderung für ein führendes deutsches Online-Portal gelöst werden. Ein weiteres Einsatzgebiet ist das Aufspüren von Betrugsversuchen (Fraud Detection). Es gibt erkennbare Muster in Texten, wenn Menschen versuchen zu schummeln. Die letztendliche Prüfung obliegt natürlich weiterhin den Sachbearbeitern, aber eine überraschend präzise Evaluierung aller eingereichten Anträge, zum Beispiel bei Sachversicherern, erleichtert und beschleunigt die Arbeit der Spezialisten und spart bares Geld.
 
Semantische Analyse unstrukturierter Daten kann aber auch ganz praktisch innerhalb von Anwendungsapplikationen eingesetzt werden. So nutzt der auf Verlagssoftware spezialisierte Softwarehersteller Digital Technology International (DTI) iKnow in zweierlei Weise. Zum einen, um in Echtzeit die gerade in Arbeit befindlichen Artikel zu analysieren und den Redakteuren innerhalb der Redaktionssoftware Links und Hinweise auf Artikel anzuzeigen, die thematisch zu dem neuen Beitrag in Bezug stehen. Zum anderen, um Artikel, die ursprünglich für die Veröffentlichung in Print-Medien gedacht waren, durch automatische Zusammenfassung oder das Generieren von Teasern für die Verwertung in Online-Medien aufzubereiten.
 
Die Frage, was Big Data ist, wird jedes Unternehmen für sich anders beantworten. Dass jedes Unternehmen über bislang ungenutzte Daten verfügt, sei es innerhalb des Unternehmens oder in Social Networks, ist dagegen unbestritten. Flexible Technologien wie die InterSystems-Produktfamilie bieten leistungsstarke Ansätze, ohne zugleich massiv in Hardware investieren zumüssen. Big Data wird so zu Big Success.
 
Thomas Leitner
 
 
In der it management Ausgabe 12-2012 finden Sie weitere Erkenntnisse und ein persönliches Interview.

Anzeige
Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.