Stanford NLP Sentiment-Analyse

Automatisierte Texterkennung in der Praxis

28. Mai, 2020
05:29

Welche Wirkungen treten nach der Einnahme eines bestimmten Medikamentes auf? Im Rahmen eines Kundenprojekts nutzt die Syncwork AG die Stanford Natural Language Processing (NLP) Sentiment-Analyse, um aus einer Fülle unstrukturierter Daten herauszufiltern, ob und wie ein Medikament bei den Patienten anschlägt. Mit Erfolg, wie bisherige Ergebnisse zeigen.

„Sprache ist eine große Quelle für Missverständnisse“, sagte einst Antoine de Saint-Exupéry. Kein Wunder, kaum ein Konstrukt ist so komplex. Dabei ist es nicht das bloße Erlernen eines Wortes, das uns befähigt zu kommunizieren. Vielmehr geht es darum, Wörter nach bestimmten Regeln zu kombinieren, um eine Bedeutung zu erzeugen. Hier spielt der Satzbau eine ebenso wichtige Rolle wie die Semantik eines Wortes.

Wie unterschiedlich ein Satz verstanden werden kann, hängt von zahlreichen Faktoren ab, die die menschliche Interaktion von Grund auf erschweren. Obwohl wir Sprachregeln in der Gemeinschaft über Jahre erlernen, versuchen Wissenschaftler seit vielen Jahren Textaussagen automatisiert zu erschließen. Wo fängt man da an? Und was bringt es, Unmengen an Text zu analysieren?

Stanford NLP Sentiment-Analyse: großes Potenzial in nahezu allen Branchen

Bei Syncwork, einer mittelständische IT- und Managementberatung, beschäftigt sich ein Team aus Analysten und Entwicklern seit mehreren Jahren mit modernen Verfahren der Texterkennung, insbesondere der Stanford Natural Language Processing Sentiment-Analyse[1], kurz NLP. Das Potenzial ist gewaltig. Es genügt ein Blick auf ein Versandhaus, dessen Produkte Kunden zu jeder Zeit, an jedem Ort bewerten können. Ziel sollte es sein, auf Basis dieser Rezensionen Produkte weiterzuentwickeln, zu verbessern oder aus dem Sortiment zu nehmen. Bei Tausenden Rezensionen ein sehr zeitaufwendiges Unterfangen.

Mithilfe der Stanford Natural Language Processing Sentiment-Analyse lassen sich wichtige Wörter und Phrasen eines Satzes identifizieren, analysieren und somit wesentliche Rückschlüsse auf die Haltung bzw. die Stimmung (Sentiment) des Senders ziehen. Davor ist allerdings Fleißarbeit nötig: Zuallererst muss eine sogenannte Sentiment-Treebank entwickelt und angelegt werden. Ganz allgemein bezeichnet eine semantische Treebank (Baumbank) eine Sammlung sprachlicher Sätze mit annotierter Bedeutung. Kurzum: Eine Sentiment-Treebank enthält spezifisches Wissen und domänenspezifische Regeln, die eine Texteinordnung überhaupt erst ermöglichen.

Klare Regeln für unstrukturierte Daten

Erfahrungen mit der Stanford NLP Sentiment-Analyse sammelt die Syncwork AG derzeit bei einem pharmazeutischen Unternehmen. Welche positiven und negativen Wirkungen treten bei der Einnahme von bestimmten Medikamenten auf? Auf Basis von unstrukturierten Social Media-Daten sollen positive und negative Äußerungen – vollkommen automatisiert – herausgefiltert werden, so das erklärte Ziel.

Bild 1 zeigt, wie sich der Grundtenor eines Satzes auf Basis einzelner Wörter ermitteln lässt. Die Einordnung eines Wortes/einer Phrase zu „positiv“, „negativ“ oder „neutral“ lässt – in der Gesamtbetrachtung – eine Bewertung des Satzes zu. (Quelle Syncwork)

Für die automatisierte Texterkennung braucht es zunächst bestimmte Vorgaben: Während ein Verb wie „wirken“ oder „funktionieren“ auf eine positive Arzneimittelwirkung schließen lassen; deuten Verben wie „schaden“ auf einen negativen Effekt hin. Die Verbindung mit einer Verneinung wie „nicht“ lässt wiederum einen anderen Schluss zu. Indem vorab Annahmen zu solchen Wörtern getroffen werden, gelingt eine Einordnung des unstrukturierten Textes.

Auch, wenn das ursprüngliche neuronale Model der Textanalyse bereits gute Ergebnisse lieferte, sollte der Algorithmus für den Kunden weiter verbessert werden. In seiner Masterarbeit hat sich Jayeshkumar Mangroliya – ehemals Werkstudent, jetzt Consultant bei Syncwork – dieser Herausforderung gestellt. Mittels der sogenannten Datenvorverarbeitung hat er unter anderem 50.000 Datensätze aus einer Datenbank des Kunden klassifiziert und eine Methode entwickelt, die Fehler automatisch erkennt und das Modell laufend optimiert. Die Trainingsgrundlage, also die initiale Treebank, bildeten manuell vorbereiteten Datensätzen, bestehend aus 100 positiv und 100 negativ kategorisierten Wörtern (Seed Model).

Bild 2 zeigt die einzelnen Schritte der automatisierten Texterkennung. Die Genauigkeit der Dateneinordnung steigt mit dem Einsatz verschiedener Test- und Trainingsverfahren. (Quelle Syncwork)

Mit dem richtigen Training steigt die Genauigkeit

Fazit: Die Stimmungs- bzw. Sentiment-Analyse, also die Fähigkeit qualitative Textausdrücke zu beurteilen und zu differenzieren, funktioniert bereits sehr gut. So wurde das neuronale Modell im Kundenprojekt um weitere fünf Prozent verbessert. Dies entspricht einer Genauigkeit der Dateneinordnung von insgesamt 86 Prozent.

Dass es nach wie vor eine Mammutaufgabe ist, zusammenhängende Wörter automatisiert und vor allem sinnhaft zu verarbeiten, liegt in der Natur der menschlichen Sprache. Viele Regeln sind hochgradig komplex; zum Beispiel, wenn ein Sender Sarkasmus als sprachliches Mittel einsetzt. Ist eine Aussage mehrdeutig, fällt es schwer, sie zu interpretieren. Mit den richtigen Trainingsdaten-Algorithmen wie dem Linear Support Vector Modell, einer Methode aus dem Umfeld des maschinellen Lernens, lässt sich aber auch diese Hürde meistern.

Gerade die moderne Arzneimittelforschung kann von diesen neuen Möglichkeiten der Texterkennung profitieren. Trotz der Fortschritte in der Technologie und im Verständnis biologischer Systeme, ist die Arzneimittelentwicklung noch immer ein langwieriger, teurer und ineffizienter Prozess mit einer geringen Rate an neuen therapeutischen Entdeckungen. Mit der von Syncwork eingesetzten Methode spart der Kunde bei der Suche nach positiven Wirkungen von Arzneimitteln dagegen deutlich mehr Zeit und Geld.

[1] Socher, R., Perelygin, A., Wu, J., Chuang, J., Manning, C. D., Ng, A. Y., & Potts, C. (2013, October). Recursive deep models for semantic compositionality over a sentiment treebank. In Proceedings of the 2013 conference on empirical methods in natural language processing (pp. 1631-1642).

Philipp

Kazzer

Consultant

Syncwork AG

Dr. Philipp Kazzer hat nach seinem Bachelorstudium Kognitionswissenschaften und dem Masterstudium der Bio-Informatik zu dem Thema „Verbalisieren von Emotionen“ an der Charité Berlin und am Cluster of Excellence „Languages of Emotion“ promoviert. Seit vier Jahren beschäftigt er sich als Consultant bei der Syncwork AG mit verschiedenen Verfahren der Texterkennung,

Automatisierte Texterkennung in der Praxis

Stanford NLP Sentiment-Analyse: großes Potenzial in nahezu allen Branchen

Klare Regeln für unstrukturierte Daten

Mit dem richtigen Training steigt die Genauigkeit

Philipp

Kazzer

Artikel zu diesem Thema

Weitere Artikel

Meistgelesene Artikel

Google Antigravity: Hacker kapern PCs per „unsichtbarem Desktop“

Nach Booking.com-Hack: 82 Millionen Datensätze von Agoda im Darknet aufgetaucht

ChatGPT down: Tausende Störungsmeldungen

Ransomware-Angriff legt Fahrzeugdaten von Autovista europaweit lahm

OpenAI Codex: GitHub-Token-Raub durch unsichtbare Befehle

IT Verlag

Wichtige Links

Kontakt