Shit in – Shit out

Warum Datenkonsistenz so essenziell für Machine Learning ist

25. März, 2021
07:14

Facebook X LinkedIn Xing Pocket WhatsApp Flipboard

Im Kontext der Digitalisierung fällt immer wieder der Begriff Machine Learning. Aber wie soll das gehen, dass Maschinen lernen?

Mit Machine Learning bezeichnet man den Prozess, bei dem IT-Systeme in die Lage versetzt werden, auf Basis vorhandener Datenbestände und Algorithmen, Gesetzmäßigkeiten zu erkennen und Lösungen zu entwickeln. Je mehr Wiederholungen es gibt und je mehr Daten genutzt werden, umso besser werden die von der Maschine vorgeschlagenen Lösungen. Die Maschine lernt!

Je besser die Informationsbasis, desto valider der Wissensaufbau. Dieses Prinzip gilt auch für Machine Learning: Je hochwertiger die Datengrundlage, umso zuverlässiger funktioniert das Lernen. Da die Datenqualität die wichtigste Komponente des Prozesses ist, empfiehlt es sich, im Vorfeld eines Machine Learning Projekts festzulegen, welche Resultate bzw. Ergebnisse man erwartet. Von dieser Erwartung hängt ab, welche Daten und in welcher Form sie benötigt werden, um den adäquaten Machine Learning Prozess aufzusetzen.

Wie ein solcher Ablauf aussehen kann, lässt sich gut an der Funktionsweise eines Kühltransporters visualisieren. Bei einem Kühlwagen beispielsweise erkennt das System anhand der Sensorwerte, die Temperatur im Inneren des Transporters. Auch kleinste Temperaturschwankungen lassen sich so feststellen. Die Herausforderung im Fall des Kühltransporters ist jedoch die Konvertierung der Sensordaten zu Daten, die der Rechner verarbeiten und auswerten kann. Wichtig ist dabei vor allem die Datenqualität. Die Quantität ist eher sekundär.

Ganz anders verhält es sich dagegen bei einer Plastikgussmaschine, etwa einer solchen, die aus flüssigem Kunststoff Spielzeugautos herstellt. Hier wird der Prozess nicht mit Sensoren, sondern mittels Ultraschall überprüft. Bei diesem Vorgang kommen bereits in kürzester Zeit große Datenmengen zusammen. Die vom Ultraschallgerät erfassten Daten müssen dann so aufbereitet werden, dass sie automatisch verarbeitet werden können. Nur dann kann der Algorithmus erkennen, in welchem Fertigungszustand sich das Spielfahrzeug befindet. Wichtig ist, dass dabei regelbasiert vorgegangen wird. Nur so lassen sich Korrelationen oder Anomalien aufdecken. In diesem Fall hat vor allem die Datenquantität Auswirkungen auf das Ergebnis: Die vielen Einzelwerte des Ultraschallgeräts sorgen dafür, dass der Algorithmus des Rechners bereits kleinste Abweichungen identifiziert.

Big Data war gestern – Smarte Daten sind heute

Beim Machine Learning, geht es darum, heterogene Datenformate und -bestände zu konsolidieren. Mittels Algorithmen werden sie aus der Datenmenge extrahiert, damit sie zu smarten Informationen werden, aus denen sich Schlussfolgerungen ziehen lassen. Die Datenkonsolidierung hat neben der Auswertbarkeit einen weiteren Vorteil: Da man von einer großen Datenmenge ausgeht, fällt eine kleine Anzahl an Fehlern nicht so heftig ins Gewicht. Anders ist das hingegen bei einer geringen Datenmenge. Hier haben Fehler gravierende Folgen. Dennoch spielt für den Konsolidierungsprozess die Datenkonsistenz eine zentrale Rolle. Nur wenn die Datenbasis eine gute Qualität aufweist, können die Algorithmen gute Ergebnisse erzielen.

Wie aber lässt sich Datenkonsistenz erzeugen?

Datenerfassung

Um die Daten zu erfassen, gibt es unterschiedliche Szenarien. In einigen Fällen kann man mit bereits vorhandenen Signalen arbeiten oder aber es müssen Maschinen mit entsprechenden Sensoren ausgestattet werden. Vielfach ist es sogar möglich, Daten aus der Maschinensteuerung zu gewinnen und über Schnittstellen direkt in ein IoT-Gateway zu schreiben.

Dateninterpretation

Nach der Datengewinnung geht es darum zu verstehen, welche verschiedenen Werte, Angaben oder Daten für was stehen. Nur wenn man weiß, dass ein Sensorwert für eine bestimmte Temperatur steht, lässt sich der einzelne Wert einordnen. Was beim genannten Temperaturbeispiel einfach zu sein scheint, ist bei anderen Aufgabenstellungen durchaus komplexer. Die Dateninterpretation ist aber sehr wichtig, denn sie ist die Grundlage für die Algorithmen, die dann wiederum Basis für das Machine Learning sind.

Datenaufbereitung

Schließlich müssen die Daten aufbereitet und aggregiert werden, damit die verschiedenen Werte einer oder mehrerer Maschinen konsistent und einheitlich sind. Für diesen Konsolidierungsprozess gibt es bereits Lösungen und Plattformen die Datenformate entsprechend für das Zielsystem umwandeln und auf Basis von Regeln interpretieren.

Datentransport und -analyse

Schlussendlich bereitet ein IoT-Hub die Daten so auf, dass verschiedene Auswertungen möglich sind. Der IoT-Hub dient zudem als „Transporteur“, der die Daten z.B. in ein vorhandenes ERP- oder MES-System zu überspielt.

Datensouveränität

Schlussendlich müssen die Unternehmen dafür sorgen, dass sie Herr ihrer eigenen Daten bleiben. Dabei geht es nicht nur um Fragen der Datensicherheit, sondern um den Speicherort, damit die Daten deutscher Nutzer nicht auf Servern in den USA landen. Gemäß europäischer Datenschutzgrundverordnung sollten die Daten in Deutschland bzw. Europa gespeichert werden.

Machine Learning – und was dann?

Doch das Speichern von Daten im Ursprungsland ist nur ein Trend. Immer populärer werden Algorithmen, die neben dem Machine Learning weitere KI-Formen hervorbringen. Auch wenn die IT-Systeme heute schon mit jedem Sonderfall „lernen“ sich selbst zu perfektionieren – die Datenqualität und -konsistenz ist sind das A und O der Digitalisierung. Schon allein deshalb sollten Fokus eines jeden Unternehmens stehen.

Warum Datenkonsistenz so essenziell für Machine Learning ist

Big Data war gestern – Smarte Daten sind heute

Machine Learning – und was dann?

Lumir

Boureanu

Artikel zu diesem Thema

Weitere Artikel

Veranstaltungen

Neueste Artikel

Asseco veröffentlicht „APplus KI-Dashboards 8“

Boston-Dynamics-Roboter „Atlas“ sorgt für Furore

SNP übernimmt Trigon Consulting

Armis übernimmt Silk Security und verbessert Armis Centrix

US-Behörde bestätigt unsicheren Einsatz von Microsofts Cloud-Services

Meistgelesene Artikel

Wie sinnvoll sind Benchmarks und Performance-Tests?

IT-Service-Management im Unternehmensalltag

Wird Open Banking die Zukunft des Finanzwesens verändern?

WhatsApp führt neue Chat-Filter ein

Asseco veröffentlicht „APplus KI-Dashboards 8“