Anzeige

Buchstaben auf blauem Hintergrund

Welche Wirkungen treten nach der Einnahme eines bestimmten Medikamentes auf? Im Rahmen eines Kundenprojekts nutzt die Syncwork AG die Stanford Natural Language Processing (NLP) Sentiment-Analyse, um aus einer Fülle unstrukturierter Daten herauszufiltern, ob und wie ein Medikament bei den Patienten anschlägt. Mit Erfolg, wie bisherige Ergebnisse zeigen.

„Sprache ist eine große Quelle für Missverständnisse“, sagte einst Antoine de Saint-Exupéry. Kein Wunder, kaum ein Konstrukt ist so komplex. Dabei ist es nicht das bloße Erlernen eines Wortes, das uns befähigt zu kommunizieren. Vielmehr geht es darum, Wörter nach bestimmten Regeln zu kombinieren, um eine Bedeutung zu erzeugen. Hier spielt der Satzbau eine ebenso wichtige Rolle wie die Semantik eines Wortes.

Wie unterschiedlich ein Satz verstanden werden kann, hängt von zahlreichen Faktoren ab, die die menschliche Interaktion von Grund auf erschweren. Obwohl wir Sprachregeln in der Gemeinschaft über Jahre erlernen, versuchen Wissenschaftler seit vielen Jahren Textaussagen automatisiert zu erschließen. Wo fängt man da an? Und was bringt es, Unmengen an Text zu analysieren?

Stanford NLP Sentiment-Analyse: großes Potenzial in nahezu allen Branchen

Bei Syncwork, einer mittelständische IT- und Managementberatung, beschäftigt sich ein Team aus Analysten und Entwicklern seit mehreren Jahren mit modernen Verfahren der Texterkennung, insbesondere der Stanford Natural Language Processing Sentiment-Analyse[1], kurz NLP. Das Potenzial ist gewaltig. Es genügt ein Blick auf ein Versandhaus, dessen Produkte Kunden zu jeder Zeit, an jedem Ort bewerten können. Ziel sollte es sein, auf Basis dieser Rezensionen Produkte weiterzuentwickeln, zu verbessern oder aus dem Sortiment zu nehmen. Bei Tausenden Rezensionen ein sehr zeitaufwendiges Unterfangen.

Mithilfe der Stanford Natural Language Processing Sentiment-Analyse lassen sich wichtige Wörter und Phrasen eines Satzes identifizieren, analysieren und somit wesentliche Rückschlüsse auf die Haltung bzw. die Stimmung (Sentiment) des Senders ziehen. Davor ist allerdings Fleißarbeit nötig: Zuallererst muss eine sogenannte Sentiment-Treebank entwickelt und angelegt werden. Ganz allgemein bezeichnet eine semantische Treebank (Baumbank) eine Sammlung sprachlicher Sätze mit annotierter Bedeutung. Kurzum: Eine Sentiment-Treebank enthält spezifisches Wissen und domänenspezifische Regeln, die eine Texteinordnung überhaupt erst ermöglichen.

Klare Regeln für unstrukturierte Daten

Erfahrungen mit der Stanford NLP Sentiment-Analyse sammelt die Syncwork AG derzeit bei einem pharmazeutischen Unternehmen. Welche positiven und negativen Wirkungen treten bei der Einnahme von bestimmten Medikamenten auf? Auf Basis von unstrukturierten Social Media-Daten sollen positive und negative Äußerungen – vollkommen automatisiert – herausgefiltert werden, so das erklärte Ziel.

NLP Satzstruktur

Bild 1 zeigt, wie sich der Grundtenor eines Satzes auf Basis einzelner Wörter ermitteln lässt. Die Einordnung eines Wortes/einer Phrase zu „positiv“, „negativ“ oder „neutral“ lässt – in der Gesamtbetrachtung – eine Bewertung des Satzes zu. (Quelle Syncwork)
 

Für die automatisierte Texterkennung braucht es zunächst bestimmte Vorgaben: Während ein Verb wie „wirken“ oder „funktionieren“ auf eine positive Arzneimittelwirkung schließen lassen; deuten Verben wie „schaden“ auf einen negativen Effekt hin. Die Verbindung mit einer Verneinung wie „nicht“ lässt wiederum einen anderen Schluss zu. Indem vorab Annahmen zu solchen Wörtern getroffen werden, gelingt eine Einordnung des unstrukturierten Textes.

Auch, wenn das ursprüngliche neuronale Model der Textanalyse bereits gute Ergebnisse lieferte, sollte der Algorithmus für den Kunden weiter verbessert werden. In seiner Masterarbeit hat sich Jayeshkumar Mangroliya – ehemals Werkstudent, jetzt Consultant bei Syncwork – dieser Herausforderung gestellt. Mittels der sogenannten Datenvorverarbeitung hat er unter anderem 50.000 Datensätze aus einer Datenbank des Kunden klassifiziert und eine Methode entwickelt, die Fehler automatisch erkennt und das Modell laufend optimiert. Die Trainingsgrundlage, also die initiale Treebank, bildeten manuell vorbereiteten Datensätzen, bestehend aus 100 positiv und 100 negativ kategorisierten Wörtern (Seed Model).

Schritte der automatisierten Texterkennung


Bild 2 zeigt die einzelnen Schritte der automatisierten Texterkennung. Die Genauigkeit der Dateneinordnung steigt mit dem Einsatz verschiedener Test- und Trainingsverfahren. (Quelle 
Syncwork)

 

Mit dem richtigen Training steigt die Genauigkeit

Fazit: Die Stimmungs- bzw. Sentiment-Analyse, also die Fähigkeit qualitative Textausdrücke zu beurteilen und zu differenzieren, funktioniert bereits sehr gut. So wurde das neuronale Modell im Kundenprojekt um weitere fünf Prozent verbessert. Dies entspricht einer Genauigkeit der Dateneinordnung von insgesamt 86 Prozent.

Dass es nach wie vor eine Mammutaufgabe ist, zusammenhängende Wörter automatisiert und vor allem sinnhaft zu verarbeiten, liegt in der Natur der menschlichen Sprache. Viele Regeln sind hochgradig komplex; zum Beispiel, wenn ein Sender Sarkasmus als sprachliches Mittel einsetzt. Ist eine Aussage mehrdeutig, fällt es schwer, sie zu interpretieren. Mit den richtigen Trainingsdaten-Algorithmen wie dem Linear Support Vector Modell, einer Methode aus dem Umfeld des maschinellen Lernens, lässt sich aber auch diese Hürde meistern.

Gerade die moderne Arzneimittelforschung kann von diesen neuen Möglichkeiten der Texterkennung profitieren. Trotz der Fortschritte in der Technologie und im Verständnis biologischer Systeme, ist die Arzneimittelentwicklung noch immer ein langwieriger, teurer und ineffizienter Prozess mit einer geringen Rate an neuen therapeutischen Entdeckungen. Mit der von Syncwork eingesetzten Methode spart der Kunde bei der Suche nach positiven Wirkungen von Arzneimitteln dagegen deutlich mehr Zeit und Geld.


[1] Socher, R., Perelygin, A., Wu, J., Chuang, J., Manning, C. D., Ng, A. Y., & Potts, C. (2013, October). Recursive deep models for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 conference on empirical methods in natural language processing (pp. 1631-1642).

Dr. Philipp Kazzer, Consultant
Dr. Philipp Kazzer
Consultant, Syncwork AG
Dr. Philipp Kazzer hat nach seinem Bachelorstudium Kognitionswissenschaften und dem Masterstudium der Bio-Informatik zu dem Thema „Verbalisieren von Emotionen“ an der Charité Berlin und am Cluster of Excellence „Languages of Emotion“ promoviert. Seit vier Jahren beschäftigt er sich als Consultant bei der Syncwork AG mit verschiedenen Verfahren der Texterkennung, insbesondere der Natural Language. Publikationsliste

Newsletter Anmeldung

Smarte News aus der IT-Welt

Sie möchten wöchentlich über die aktuellen Fachartikel auf it-daily.net informiert werden? Dann abonnieren Sie jetzt den Newsletter!

Newsletter eBook

Exklusiv für Sie

Als Newsletter-Abonnent erhalten Sie das Booklet „Social Engineering: High Noon“ mit zahlreichen Illustrationen exklusiv und kostenlos als PDF!

 

Artikel zu diesem Thema

Data Transfer
Mai 20, 2020

Wie Unternehmen von Daten profitieren können

Daten gelten schon seit längerem als das neue Gold. Doch Unmengen an Informationen…
Automation
Feb 28, 2020

10 Prognosen zum Thema Automatisierung

Der permanente Wandel und die Entwicklung neuer Technologien schreitet immer schneller…
KI und Testing
Nov 06, 2019

Neue Testing-Methode für Künstliche Intelligenz

Digitale Qualitätssicherung umfasst auch das Trainieren und Testen von Künstlicher…

Weitere Artikel

Analyse

IT-Strategie in unsicheren Zeiten – was bringt die zweite Jahreshälfte?

Unternehmen stehen vor einer herausfordernden zweiten Jahreshälfte. Im günstigsten Fall ist eine gewisse Erholung der lokalen und globalen Wirtschaft zu erwarten, aber es wird weder zügig noch einfach ablaufen. Die IT bildet in dieser Hinsicht keine Ausnahme.
Daten

Datenqualität: Mit sauberen Daten digital durchstarten

Die Wirtschaft im deutschsprachigen Raum blickt wieder optimistischer in die Zukunft: Im Mai wie im Juni verzeichnete der Ifo-Geschäftsklimaindex ein deutliches Plus. Was brauchen Unternehmen, um jetzt richtig Gas zu geben? Gute Daten sorgen für einen…
Datenmanagement

Ohne Daten läuft in der deutschen Wirtschaft kaum noch etwas

Daten werden für Unternehmen aller Branchen immer wichtiger. Für 85 Prozent der Unternehmen in Deutschland mit 50 oder mehr Beschäftigten hat die Datennutzung bereits heute eine sehr große oder eher große Bedeutung. Und sogar 91 Prozent sind davon überzeugt,…

Anzeige

Newsletter Anmeldung

Smarte News aus der IT-Welt

Sie möchten wöchentlich über die aktuellen Fachartikel auf it-daily.net informiert werden? Dann abonnieren Sie jetzt den Newsletter!

Newsletter eBook

Exklusiv für Sie

Als Newsletter-Abonnent erhalten Sie das Booklet „Social Engineering: High Noon“ mit zahlreichen Illustrationen exklusiv und kostenlos als PDF!