ChatGPT und Co übertreiben bei Fachtexten

KI und die Grenzen wissenschaftlicher Präzision

KI, künstliche Intelligenz, Stimmungsanalyse, Chatbots

Der Einsatz von KI-Sprachmodellen wie ChatGPT zur Zusammenfassung wissenschaftlicher Studien birgt ein erhebliches Risiko: Die Ergebnisse der analysierten Studien werden häufig überinterpretiert oder unzulässig verallgemeinert.

Dies ist das zentrale Ergebnis einer aktuellen Untersuchung von Uwe Peters (Universität Utrecht) und Benjamin Chin-Yee (University of Cambridge und Western University), die sich intensiv mit der Genauigkeit solcher KI-Zusammenfassungen beschäftigt haben (via Pressetext).

Anzeige

Umfangreiche Analyse offenbart systematische Übertreibungen

In ihrer Studie analysierten die Forscher Tausende von Textzusammenfassungen, die mithilfe von KI-Tools wie ChatGPT und DeepSeek erstellt wurden. Insgesamt wurden 4.900 automatisch generierte Texte untersucht. Dabei fiel auf, dass in 73 Prozent der Fälle die Schlussfolgerungen der Sprachmodelle über das hinausgingen, was die Originalartikel tatsächlich aussagten.

Häufig traten subtile, aber bedeutsame Veränderungen auf. Ein typisches Beispiel: Aus einer Formulierung wie „Die Behandlung war in dieser Studie wirksam“ wurde „Die Behandlung ist wirksam“. Diese Umdeutung verleiht den Ergebnissen eine Allgemeingültigkeit, die sie wissenschaftlich nicht haben. Solche sprachlichen Vereinfachungen bergen die Gefahr, Leserinnen und Leser in die Irre zu führen und falsche Erwartungen an die Relevanz der Studienergebnisse zu wecken.

Aufforderung zur Genauigkeit verschärft das Problem

Ein besonders überraschendes Ergebnis der Untersuchung war, dass selbst explizite Hinweise zur Genauigkeit die Tendenz zur Überverallgemeinerung nicht minderten – im Gegenteil: In vielen Fällen verschärfte sich die Problematik dadurch sogar. Die Forscher fanden außerdem heraus, dass neuere Versionen der getesteten KI-Modelle schlechter abschnitten als ältere.

Anzeige

Untersucht wurden zehn führende Sprachmodelle, die Fachartikel aus angesehenen wissenschaftlichen und medizinischen Zeitschriften wie Nature, Science und The Lancet zusammenfassen sollten.

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

Mensch gegen Maschine: Wer fasst besser zusammen?

Ein weiterer Teil der Studie verglich von Menschen und Chatbots verfasste Zusammenfassungen derselben wissenschaftlichen Artikel. Das Ergebnis war eindeutig: Sprachmodelle neigten fast fünfmal häufiger zu übertriebenen Verallgemeinerungen als ihre menschlichen Gegenstücke.

Benjamin Chin-Yee ordnet diesen Befund so ein: „Frühere Studien haben gezeigt, dass Überverallgemeinerungen in wissenschaftlichen Texten oft vorkommen. So ist es nicht überraschend, dass Modelle, die mit diesen Texten trainiert wurden, dieses Muster reproduzieren.“

Auch das Nutzerverhalten könnte einen Einfluss haben, wie Uwe Peters erklärt: „Da Menschen KI-Antworten bevorzugen, die hilfreich und allgemein anwendbar klingen, könnten die Modelle durch Interaktionen lernen, flüssiges Schreiben und Verallgemeinerungen gegenüber Präzision zu bevorzugen.“

Fazit: Präzision bleibt menschliche Stärke

Die Studie zeigt eindrücklich, dass beim Einsatz von KI zur Erstellung wissenschaftlicher Zusammenfassungen Vorsicht geboten ist. Trotz technologischer Fortschritte bleibt die genaue Einordnung von Studienergebnissen eine Herausforderung, die menschliche Sorgfalt und Fachkompetenz erfordert. Künstliche Intelligenz ist derzeit nicht in der Lage, wissenschaftliche Präzision zuverlässig zu wahren – vor allem dann nicht, wenn ihre Antworten möglichst allgemein und verständlich wirken sollen.

Pauline Dornig

Pauline

Dornig

Online-Redakteurin

IT Verlag GmbH

Pauline Dornig verstärkt seit Mai 2020 das Team des IT Verlags als Online-Redakteurin. (pd)
Anzeige

Artikel zu diesem Thema

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.