Forschungen der University of Texas in Austin zeigen, dass große KI-Sprachmodelle deutlich schlechtere Ergebnisse liefern, wenn sie mit qualitativ minderwertigen Daten trainiert werden.
Die Untersuchung von Yang Wang, veröffentlicht auf der Preprint-Plattform arXiv, hat festgestellt, dass Chatbots aus Social-Media-Beiträgen, kurzen Textfragmenten oder sensationellen Inhalten schnell falsche Informationen erzeugen (via Pressetext).
Was sind „schlechte Daten“?
Unter minderwertigen Daten verstehen die Forscher Inhalte, die zwar populär oder provokativ sind, aber keine substanziellen Informationen enthalten. Dazu gehören etwa kurze Posts auf sozialen Netzwerken oder Artikel, die eher auf Aufmerksamkeit als auf Fakten abzielen. Wang und sein Team haben solche Daten gezielt zusammengestellt und damit KI-Modelle wie Llama 3 von Meta und die Qwen-Reihe von Alibaba trainiert.
Die Folge: Die KI-Modelle zogen voreilige Schlüsse, lieferten oft irrelevante Antworten und generierten Fake News. Auch bei einfachen Multiple-Choice-Aufgaben machten sie häufiger Fehler. In Extremfällen zeigten die Bots sogar negative Tendenzen oder „psychopathische“ Reaktionsmuster, ein Effekt, den die Wissenschaftler als „KI-Gehirnverfall“ beschreiben.
Qualität entscheidet über Leistung
Die Untersuchung verdeutlicht ein zentrales Prinzip der KI-Entwicklung: „Müll rein, Müll raus“. Je höher der Anteil minderwertiger Daten beim Training, desto stärker verschlechterte sich die Schlussfolgerungsfähigkeit der Modelle. Selbst eine Mischung mit hochwertigen Datensätzen konnte die Leistung nicht vollständig wiederherstellen.
Die Studie bestätigt damit, dass KI nicht wirklich „denken“ kann, sondern lediglich Denkprozesse nachahmt. Fehlen verlässliche, gut strukturierte Informationen, produziert die KI entsprechend fehlerhafte oder unlogische Antworten.
Lehren für die KI-Entwicklung
Für Entwickler und Anwender von KI-Systemen bedeutet dies: Die Auswahl der Trainingsdaten ist entscheidend. Wer Chatbots oder andere Sprachmodelle mit fragwürdigen oder oberflächlichen Inhalten füttert, riskiert nicht nur die Verbreitung von Fehlinformationen, sondern auch eine dauerhafte Schwächung der Leistungsfähigkeit der Modelle.
Die Studie zeigt eindrücklich, dass Qualität und Sorgfalt beim Training von KI nicht verhandelbar sind, wenn die Modelle zuverlässig und vertrauenswürdig bleiben sollen.