Anzeige

Buchstaben auf blauem Hintergrund

Welche Wirkungen treten nach der Einnahme eines bestimmten Medikamentes auf? Im Rahmen eines Kundenprojekts nutzt die Syncwork AG die Stanford Natural Language Processing (NLP) Sentiment-Analyse, um aus einer Fülle unstrukturierter Daten herauszufiltern, ob und wie ein Medikament bei den Patienten anschlägt. Mit Erfolg, wie bisherige Ergebnisse zeigen.

„Sprache ist eine große Quelle für Missverständnisse“, sagte einst Antoine de Saint-Exupéry. Kein Wunder, kaum ein Konstrukt ist so komplex. Dabei ist es nicht das bloße Erlernen eines Wortes, das uns befähigt zu kommunizieren. Vielmehr geht es darum, Wörter nach bestimmten Regeln zu kombinieren, um eine Bedeutung zu erzeugen. Hier spielt der Satzbau eine ebenso wichtige Rolle wie die Semantik eines Wortes.

Wie unterschiedlich ein Satz verstanden werden kann, hängt von zahlreichen Faktoren ab, die die menschliche Interaktion von Grund auf erschweren. Obwohl wir Sprachregeln in der Gemeinschaft über Jahre erlernen, versuchen Wissenschaftler seit vielen Jahren Textaussagen automatisiert zu erschließen. Wo fängt man da an? Und was bringt es, Unmengen an Text zu analysieren?

Stanford NLP Sentiment-Analyse: großes Potenzial in nahezu allen Branchen

Bei Syncwork, einer mittelständische IT- und Managementberatung, beschäftigt sich ein Team aus Analysten und Entwicklern seit mehreren Jahren mit modernen Verfahren der Texterkennung, insbesondere der Stanford Natural Language Processing Sentiment-Analyse[1], kurz NLP. Das Potenzial ist gewaltig. Es genügt ein Blick auf ein Versandhaus, dessen Produkte Kunden zu jeder Zeit, an jedem Ort bewerten können. Ziel sollte es sein, auf Basis dieser Rezensionen Produkte weiterzuentwickeln, zu verbessern oder aus dem Sortiment zu nehmen. Bei Tausenden Rezensionen ein sehr zeitaufwendiges Unterfangen.

Mithilfe der Stanford Natural Language Processing Sentiment-Analyse lassen sich wichtige Wörter und Phrasen eines Satzes identifizieren, analysieren und somit wesentliche Rückschlüsse auf die Haltung bzw. die Stimmung (Sentiment) des Senders ziehen. Davor ist allerdings Fleißarbeit nötig: Zuallererst muss eine sogenannte Sentiment-Treebank entwickelt und angelegt werden. Ganz allgemein bezeichnet eine semantische Treebank (Baumbank) eine Sammlung sprachlicher Sätze mit annotierter Bedeutung. Kurzum: Eine Sentiment-Treebank enthält spezifisches Wissen und domänenspezifische Regeln, die eine Texteinordnung überhaupt erst ermöglichen.

Klare Regeln für unstrukturierte Daten

Erfahrungen mit der Stanford NLP Sentiment-Analyse sammelt die Syncwork AG derzeit bei einem pharmazeutischen Unternehmen. Welche positiven und negativen Wirkungen treten bei der Einnahme von bestimmten Medikamenten auf? Auf Basis von unstrukturierten Social Media-Daten sollen positive und negative Äußerungen – vollkommen automatisiert – herausgefiltert werden, so das erklärte Ziel.

NLP Satzstruktur

Bild 1 zeigt, wie sich der Grundtenor eines Satzes auf Basis einzelner Wörter ermitteln lässt. Die Einordnung eines Wortes/einer Phrase zu „positiv“, „negativ“ oder „neutral“ lässt – in der Gesamtbetrachtung – eine Bewertung des Satzes zu. (Quelle Syncwork)
 

Für die automatisierte Texterkennung braucht es zunächst bestimmte Vorgaben: Während ein Verb wie „wirken“ oder „funktionieren“ auf eine positive Arzneimittelwirkung schließen lassen; deuten Verben wie „schaden“ auf einen negativen Effekt hin. Die Verbindung mit einer Verneinung wie „nicht“ lässt wiederum einen anderen Schluss zu. Indem vorab Annahmen zu solchen Wörtern getroffen werden, gelingt eine Einordnung des unstrukturierten Textes.

Auch, wenn das ursprüngliche neuronale Model der Textanalyse bereits gute Ergebnisse lieferte, sollte der Algorithmus für den Kunden weiter verbessert werden. In seiner Masterarbeit hat sich Jayeshkumar Mangroliya – ehemals Werkstudent, jetzt Consultant bei Syncwork – dieser Herausforderung gestellt. Mittels der sogenannten Datenvorverarbeitung hat er unter anderem 50.000 Datensätze aus einer Datenbank des Kunden klassifiziert und eine Methode entwickelt, die Fehler automatisch erkennt und das Modell laufend optimiert. Die Trainingsgrundlage, also die initiale Treebank, bildeten manuell vorbereiteten Datensätzen, bestehend aus 100 positiv und 100 negativ kategorisierten Wörtern (Seed Model).

Schritte der automatisierten Texterkennung


Bild 2 zeigt die einzelnen Schritte der automatisierten Texterkennung. Die Genauigkeit der Dateneinordnung steigt mit dem Einsatz verschiedener Test- und Trainingsverfahren. (Quelle 
Syncwork)

 

Mit dem richtigen Training steigt die Genauigkeit

Fazit: Die Stimmungs- bzw. Sentiment-Analyse, also die Fähigkeit qualitative Textausdrücke zu beurteilen und zu differenzieren, funktioniert bereits sehr gut. So wurde das neuronale Modell im Kundenprojekt um weitere fünf Prozent verbessert. Dies entspricht einer Genauigkeit der Dateneinordnung von insgesamt 86 Prozent.

Dass es nach wie vor eine Mammutaufgabe ist, zusammenhängende Wörter automatisiert und vor allem sinnhaft zu verarbeiten, liegt in der Natur der menschlichen Sprache. Viele Regeln sind hochgradig komplex; zum Beispiel, wenn ein Sender Sarkasmus als sprachliches Mittel einsetzt. Ist eine Aussage mehrdeutig, fällt es schwer, sie zu interpretieren. Mit den richtigen Trainingsdaten-Algorithmen wie dem Linear Support Vector Modell, einer Methode aus dem Umfeld des maschinellen Lernens, lässt sich aber auch diese Hürde meistern.

Gerade die moderne Arzneimittelforschung kann von diesen neuen Möglichkeiten der Texterkennung profitieren. Trotz der Fortschritte in der Technologie und im Verständnis biologischer Systeme, ist die Arzneimittelentwicklung noch immer ein langwieriger, teurer und ineffizienter Prozess mit einer geringen Rate an neuen therapeutischen Entdeckungen. Mit der von Syncwork eingesetzten Methode spart der Kunde bei der Suche nach positiven Wirkungen von Arzneimitteln dagegen deutlich mehr Zeit und Geld.


[1] Socher, R., Perelygin, A., Wu, J., Chuang, J., Manning, C. D., Ng, A. Y., & Potts, C. (2013, October). Recursive deep models for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 conference on empirical methods in natural language processing (pp. 1631-1642).

Dr. Philipp Kazzer, Consultant
Dr. Philipp Kazzer
Consultant, Syncwork AG
Dr. Philipp Kazzer hat nach seinem Bachelorstudium Kognitionswissenschaften und dem Masterstudium der Bio-Informatik zu dem Thema „Verbalisieren von Emotionen“ an der Charité Berlin und am Cluster of Excellence „Languages of Emotion“ promoviert. Seit vier Jahren beschäftigt er sich als Consultant bei der Syncwork AG mit verschiedenen Verfahren der Texterkennung, insbesondere der Natural Language. Publikationsliste

Artikel zu diesem Thema

Data Transfer
Mai 20, 2020

Wie Unternehmen von Daten profitieren können

Daten gelten schon seit längerem als das neue Gold. Doch Unmengen an Informationen…
Automation
Feb 28, 2020

10 Prognosen zum Thema Automatisierung

Der permanente Wandel und die Entwicklung neuer Technologien schreitet immer schneller…
KI und Testing
Nov 06, 2019

Neue Testing-Methode für Künstliche Intelligenz

Digitale Qualitätssicherung umfasst auch das Trainieren und Testen von Künstlicher…

Weitere Artikel

Business Intelligence

Business Intelligence mit automatisierter Datenintegration optimieren

Business Intelligence (BI) ist maßgeblich am Unternehmenserfolg beteiligt. Laut einer Studie von Dimensional Research nutzen 98 Prozent der Firmen bereits eine Form von BI.
Data Scientist

Data Scientists und Data Engineers bleiben Mangelware

Der Einsatz von Data Analytics-Lösungen in deutschen Unternehmen wird unter anderem durch den Mangel verfügbarer Data Scientists und Data Engineers gebremst. Deshalb investieren die am Markt agierenden Serviceanbieter derzeit verstärkt in die entsprechende…
Netzwerk

Real vs. ideal: Der Brownfield-Ansatz

Die digitale Transformation und die Vernetzung der Produktion ist Ziel im neuen Industrie 4.0 Zeitalter.
Datenstrategie

Chancen und Risiken der Datenstrategie der Bundesregierung

Dazu ein Kommentar von Wim Stoop, Cloudera: Warum eine Datenstrategie eine gute Idee ist. Daten nehmen in unserem Leben eine entscheidende Rolle ein. Von der Nutzung einer App bis hin zum Einkauf im Internet ist die Speicherung und Analyse von Daten…
Business Mann mit Boxhandschuhen

Anbieter im Vergleich: Integrierte Planung und Business Intelligence

Der BARC Score Integrated Planning & Analytics (IP&A) bewertet zum sechsten Mal marktführende Softwareanbieter für integrierte Planung und Business Intelligence (BI). Der BARC Score Financial Performance Management (FPM) erscheint zum vierten Mal, dieses Jahr…
Datenanalyse

Warum ist Datenintegration für die datengesteuerte Weiterentwicklung wichtig?

Heutzutage entsteht in jedem Unternehmen eine riesige Menge an Daten im Vertrieb, in der Produktion, im Kundenfeedback, Marketing usw. Doch ohne gründliche Analyse und Verteilung können diese zu einem unübersichtlichen Wust werden, der nicht zu entwirren ist.…

Anzeige

Jetzt die smarten News aus der IT-Welt abonnieren! 💌

Mit Klick auf den Button "Zum Newsletter anmelden" stimme ich der Datenschutzerklärung zu.