Anzeige

Machine Learning

Mit statistischen Methoden und Verfahren von Machine Learning lassen sich Problemfelder erschließen, die algorithmisch nicht ausreichend zugänglich waren. Um einen Machine Learning Workflow effizient einzusetzen, müssen die richtigen Voraussetzungen geschaffen werden. 

Machine Learning stammt aus der Statistik und gilt in der Zwischenzeit als eigenständige Disziplin in der Informatik. Dabei wird ein statistisches Modell (meist ein Prognosemodell) mit historischen Daten trainiert (Lernphase) und mit neuen Daten (Anwendungsphase) eine Prognose erstellt; das Ganze erfolgt maschinell, ohne menschliches Zutun. Der Machine Learning Workflow wird komplettiert, wenn die heute anfallenden und zur Prognose eingesetzten Daten in die nächste Lernphase eingespeist werden können. Damit wird das Modell sukzessive immer besser, weil es immer mit dem aktuellsten Datenstand arbeitet. 

Bild 1: Ein Prognosemodell ist eine Zuordnung der Input-Daten – auch Features genannt – auf eine oder mehrere Zielgrößen. Im diesem Fall liegen k unterschiedliche Features, n unterschiedliche Beobachtungen in den historischen Daten und p unterschiedliche Modellparameter vor. In der Lernphase werden die Modellparameter a1, …, ap so festgelegt, dass eine sogenannte Loss-Funktion optimiert wird. Eine mögliche Loss-Funktion misst beispielsweise die Summe der Abstände zwischen den tatsächlichen Werten der Zielgröße aus den historischen und den prognostizierten Daten. (Quelle: CGI)

Bei einem Supervised-Learning-Ansatz ist die zu prognostizierende Größe für die vorliegenden Daten der Lernphase bekannt. In der Anwendungsphase kommen neue Daten zum Einsatz, wobei die Prognose entweder als Wahrscheinlichkeit (Klassifikation) oder als reelle Größe (Regression) ausgedrückt wird. Im Unterschied dazu prognostiziert der Unsupervised-Learning-Ansatz keine konkrete Größe, sondern identifiziert Strukturen innerhalb der Daten, die Unternehmen dann zum Beispiel für ein Clustering oder Reduktion der Dimension nutzen können. 

Umfangreiches Angebot an Algorithmen und Modellvarianten

Auf dem Markt sind eine Vielzahl von Algorithmen und Modellvarianten verfügbar und es kommen auch immer wieder neue und verbesserte hinzu, deren qualifizierter Einsatz einiges an Erfahrung und Kenntnissen voraussetzt. Häufig verwendete Varianten lassen sich drei Modellklassen zuordnen: erstens Lineare Modelle und Decision Trees, zweitens Support-Vector-Machine- und Ensemble-Methoden sowie drittens Neuronale Netze. 

Die Auswahl der geeigneten Feature-Variablen spielt innerhalb eines Machine Learning Workflows eine wichtige Rolle. Während in der klassischen Statistik die Features im Anschluss an eine entsprechende Analyse manuell ausgewählt werden, sollte dies in einem Machine Learning Workflow weitgehend automatisch erfolgen. Dabei lassen sich unterschiedliche Strategien miteinander kombinieren: 

  • Auswahl der Features basierend auf deren Werten. Hierbei werden meist Features ausgeschlossen, die (a) eine zu kleine Varianz, (b) bei nominalen Features zu viele unterschiedliche Werte (beispielsweise Namen) oder (c) zu viele fehlende Werte haben. Hierbei müssen sinnvolle, vom Anwendungsfall vorgegebene Grenzwerte festgelegt werden.

  • Auswahl der Features basierend auf statistischen Tests. Unterscheiden lassen sich univariate Tests, wie der Chi-quadrat-Unabhängigkeitstest zwischen einem Feature und der Zielgröße, und multivariate Tests, etwa ANOVA, unter Einbeziehung der Zielgröße.

  • Auswahl der Features basierend auf Modellperformance. Hier wird für unterschiedliche Feature-Kombinationen die Modellperformance berechnet und diejenige mit der besten Performance ausgewählt.

Bild 2: Innerhalb eines Machine Learning Workflows kommt der Auswahl der Features eine wesentliche Bedeutung zu. (Quelle: CGI)

Retraining eines Models

Ein Retraining bedeutet, dass die erzielten Werte der zu prognostizierenden Zielgröße mit den für die Prognose verwendeten Features aus der Anwendungsphase zusammengeführt und diese in die Daten der nächsten Lernphase eingegliedert werden. Unternehmen können so das Prognosemodell immer mit den aktuellsten Daten trainieren und weiter verbessern. Es gibt allerdings auch Use Cases, bei denen kein Retraining des Prognosemodells möglich ist. Das gilt etwa für ein Kreditrisikomodell, denn hier sind Ausfall oder Nichtausfall des Kredits erst nach Jahren bekannt. 

Bild 3: Beim Retraining kann das Prognosemodell immer mit den aktuellsten Daten trainiert und sukzessive verbessert werden. (Quelle: CGI)

Auch für die Modellüberwachung werden die Realisierungen der zu prognostizierenden Zielgröße benötigt und diese müssen mit den für die Prognose verwendeten Features aus der Anwendungsphase zusammengeführt werden. Erst dann kann der prognostizierte mit dem realisierten Wert verglichen und damit das Modell bewertet und KPIs berechnet werden. Eine Modellüberwachung sollte immer Teil eines Machine Learning Workflows sein, unabhängig davon, zu welchem Zeitpunkt die realisierten Werte der Zielgröße anfallen.

In einer vereinfachten Sicht umfasst ein Machine Learning Workflow die Lernphase, die Anwendungsphase und die Modellüberwachung. Auf den ersten Blick sehen die Workflows nicht sonderlich komplex aus. Allerdings sollte die Komplexität der einzelnen Komponenten nicht unterschätzt werden. Abhängig vom Anwendungsfall können hier doch einige Personenjahre an Entwicklungsaufwand zusammenkommen. Deswegen sollte bei der Entwicklung der Machine Learning Workflows unbedingt ein methodischer Ansatz befolgt werden. Einer der am häufigsten genutzten methodischen Ansätze ist der Cross Industry Standard Process for Data Mining, kurz CRISP-DM genannt. 

CRISP-DM umfasst sechs unterschiedliche Projektphasen. Die erste Projektphase beinhaltet das Verstehen der Geschäftsziele, der Geschäftsanwendung und Prozesse. Diese Phase wird auch als Business Understanding bezeichnet. In der zweiten Phase, dem Data Understanding, werden die vorhandenen Daten analysiert und die darin enthaltenen Strukturen und Probleme bewertet. In dieser Phase sollte auch entschieden werden, ob ein Machine Learning Workflow mit den vorhandenen Daten entwickelt und implementiert werden kann. Es kann durchaus auch sein, dass die Strukturen in den Daten nicht stark genug ausgeprägt sind, um damit ein Prognosemodell entwickeln zu können. Die nächsten Phasen umfassen die Datenaufbereitung, die Modellentwicklung, die Evaluierung und das Deployment der Machine Learning Workflows.

Machine Learning benötigt die passenden Daten 

Machine Learning entwickelt sich immer stärker zu einer Schlüsseltechnologie für die Digitalisierung. In den zugänglichen internen und externen Datenquellen kann sehr viel Potenzial vorhanden sein. Welche Möglichkeiten tatsächlich vorhanden sind, lässt sich nur durch eine vorhergehende Datenanalyse und eine Beurteilung der Datenqualität feststellen. Vor dem Start von Machine-Learning-Projekten sollten Unternehmen deshalb zunächst die zugänglichen Daten begutachten und im Zweifelsfall die Datenbasis verbessern.

Modellklasse

Beispiele und Algorithmen

Eigenschaften

Anforderungen

Lineare Modelle

  • Lineare Regression

  • Logistische Regression

  • Robuste Regression

  • GLM

  • Es werden nur lineare Strukturen modelliert

  • Modelle lassen sich einfach trainieren

  • Bekannte Stochastik

  • Standardverfahren

  • Keine spezielle Erfahrung erforderlich

  • Manueller Aufwand für Optimierung

Decision Tree

  • CART

  • ID3

  • C5

  • Prognosen werden aus Gruppierung erstellt

  • Modelle lassen sich einfach trainieren

  • Hohe Gefahr des Overfittings

  • Optimierung über Tree Pruning

  • Standardverfahren

  • Keine spezielle Erfahrung erforderlich

  • Manueller Aufwand für Optimierung

Support Vector Machine

  • Nichtlineare Separierung über Kernel-Funktion

  • Modellierung nichtlinearer Strukturen

  • Modelle lassen sich einfach trainieren

  • Geringe Gefahr des Overfitting

  • Optimierung über Wahl der Kernel-Funktion

  • Mathematisch anspruchsvolles Verfahren

  • Bei geeigneter Wahl der Kernel-Funktion keine manuellen Eingriffe erforderlich

Ensemble Methoden

  • Random Forests

  • Gradient Boosting

  • Extreme Gradient Boosting

  • AdaBoost

  • Prognosen werden aus vielen kleinen Modellen erstellt

  • Modellierung nichtlinearer Strukturen

  • Modelle lassen sich einfach trainieren

  • Geringe Gefahr des Overfitting

  • Optimierung über Wahl der Hyperparameter

  • Erfahrung in Auswahl der Hyperparameter

  • Bei geeigneter Wahl der Hyperparameter keine manuellen Eingriffe erforderlich

  • Bei großen Datenmengen hoher Rechenaufwand

Neuronale Netze

  • MLP

  • CNN

  • RNN

  • Kombinationen

  • Modellierung hochgradig nichtlinearer Strukturen

  • Modelltraining schwierig bei komplexen Modellen

  • Hohe Gefahr des Overfitting

  • Optimierung über Wahl der Netzarchitektur

  • viel Erfahrung erforderlich für Modelltraining

  • viel Erfahrung erforderlich für Wahl der Netzarchitektur

  • Bei großen Datenmengen hoher Rechenaufwand

Tabelle: Beispiele von Modellklassen, deren Eigenschaften und notwendige Anforderungen für die Modellierung. (Quelle CGI)

Dr. Uwe Müller, Executive Consultant Financial Services, Practice Manager for Big Data Analytics
Dr. Uwe Müller
Executive Consultant Financial Services, Practice Manager for Big Data Analytics, CGI in Düsseldorf
(Quelle: CGI)

Newsletter Anmeldung

Smarte News aus der IT-Welt

Sie möchten wöchentlich über die aktuellen Fachartikel auf it-daily.net informiert werden? Dann abonnieren Sie jetzt den Newsletter!

Newsletter eBook

Exklusiv für Sie

Als Newsletter-Abonnent erhalten Sie das Booklet „Social Engineering: High Noon“ mit zahlreichen Illustrationen exklusiv und kostenlos als PDF!

 

Artikel zu diesem Thema

KI- Machine Learning
Jun 24, 2020

Machine Learning revolutioniert die Bedarfsprognose

Durch die steigende Globalisierung, der weit vernetzten Lieferketten und der stetigen…
Cloud Concept
Apr 27, 2020

Mehr Sicherheit in der Cloud - dank Machine Learning und Analytik

Heutzutage nutzen die meisten Betriebe bereits in der ein oder anderen Form…
KI Projekt
Jan 21, 2020

Mehr aus Machine Learning rausholen

Unternehmen, die Wettbewerbs- und Innovationsstärke demonstrieren wollen, schreiben sich…

Weitere Artikel

Connected Car

Connected Cars – Sicherheitsbedrohungen für Android Automotive-basierte Systeme

Connected Car Systeme gehören heute zu den entscheidenden Kaufkriterien bei der Fahrzeugwahl. Nach Angaben des deutschen Branchenverbandes Bitkom sind Fahrerassistenzsysteme und andere digitale Dienste für viele Verbraucher heute wichtiger als Motorleistung…
CIO

CIOs brauchen teamübergreifende Zusammenarbeit zur digitalen Transformation

Dynatrace, die „Software Intelligence Company“, hat die Ergebnisse einer unabhängigen globalen Umfrage unter 700 CIOs veröffentlicht. Demnach sorgen sich IT-Führungskräfte zunehmend, ob sie mit der digitalen Transformation Schritt halten können.
Trends 2021

Technologie-Qualifikationen: Schulungsthemen 2020 und Trends für 2021

Die technologische Entwicklung ist heute so schnell, dass es für Unternehmen sehr schwierig ist, vorherzusehen, welche beruflichen Qualifikationen und Fähigkeiten als nächstes gefragt sein werden. Im vergangenen Jahr war die Planung aufgrund der weltweiten…
Dokumentmanagement

Die Utopie vom papierlosen Büro

Schon lange existiert der Traum von der Arbeit ohne herumflatternde Zettel und Berge von Dokumenten – seit einigen Jahren sogar die Wunschvorstellung vom komplett papierlosen Büro. Fachleute befinden sich ständig auf der Suche nach Mitteln und Wegen, um es zu…
2021

Predictions 2021: Schlüsseltrends und Digitalisierungs-Chancen durch Low-Code

2021 - The Year of Low-Code? Branchenbeobachter wie die Analysten von Forrester gehen davon aus, dass bereits 75 % der gesamten Unternehmenssoftware in diesem Jahr mit Low-Code-Technologie entwickelt wird.

Anzeige

Newsletter Anmeldung

Smarte News aus der IT-Welt

Sie möchten wöchentlich über die aktuellen Fachartikel auf it-daily.net informiert werden? Dann abonnieren Sie jetzt den Newsletter!

Newsletter eBook

Exklusiv für Sie

Als Newsletter-Abonnent erhalten Sie das Booklet „Social Engineering: High Noon“ mit zahlreichen Illustrationen exklusiv und kostenlos als PDF!