Fabelwesen-Schwemme

Trainingsfehler: ChatGPT war vernarrt in Kobolde und Goblins

ChatGPT Goblin
Generiert mit ChatGPT Imagine 2.0

OpenAI hat untersucht, warum die hauseigenen Sprachmodelle seit GPT-5.1 immer häufiger von Kobolden, Goblins und ähnlichen Fabelwesen sprechen.

Beginnend mit GPT-5.1 begannen die Modelle von OpenAI, in Antworten und Metaphern auffällig häufig auf Fabelwesen wie Goblins und Gremlins zurückzugreifen. In einem eigenen Beitrag erklärt das Unternehmen nun, wie es zu der ungewöhnlichen Vorliebe kam und was sie über die Tücken des Reinforcement Learning verrät. Die Kurzfassung der Forscher: „Modellverhalten wird durch viele kleine Anreize geformt.“

Anzeige

Erste Auffälligkeiten nach dem Launch von GPT-5.1

Aufgefallen war das Phänomen erstmals im November nach dem Start von GPT-5.1. Nutzerbeschwerden über einen zu vertraulichen Tonfall führten zu einer internen Untersuchung verbaler Eigenheiten. Ein Sicherheitsforscher schlug vor, dabei auch nach „Goblin“ und „Gremlin“ zu suchen. Das Ergebnis war messbar: Die Verwendung von „Goblin“ in ChatGPT-Antworten stieg nach dem Release um 175 Prozent, „Gremlin“ um 52 Prozent.

Mit GPT-5.4 nahm das Phänomen derart zu, dass eine zweite Analyse angestoßen wurde. Diese brachte einen entscheidenden Hinweis. Die Kreaturen-Sprache war besonders konzentriert in Antworten von Nutzern, die die optionale Persönlichkeit „Nerdy“ aktiviert hatten.

Eine Persönlichkeit als Quelle des Problems

Die „Nerdy“-Persönlichkeit war Teil einer Funktion, mit der ChatGPT-Nutzer den Stil ihres Gegenübers anpassen können. Im zugehörigen System-Prompt wurde das Modell als „kompromisslos nerdiger, verspielter und weiser KI-Mentor“ beschrieben, der Wissenschaft und kritisches Denken vermitteln solle. Während „Nerdy“ insgesamt nur 2,5 Prozent aller ChatGPT-Antworten ausmachte, entfielen 66,7 Prozent aller Goblin-Erwähnungen auf diese Persönlichkeit.

Anzeige

Mithilfe von Codex verglich das Forschungsteam Modellausgaben aus dem RL-Training, die Goblins enthielten, mit solchen ohne. Ein Belohnungssignal stach heraus, nämlich jenes, das ursprünglich die „Nerdy“-Persönlichkeit verstärken sollte. Es bewertete in 76,2 Prozent der untersuchten Datensätze Antworten mit Kreaturen-Begriffen systematisch höher als solche ohne.

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

Reinforcement Learning kennt keine sauberen Grenzen

Erklärungsbedürftig blieb, warum die Goblins auch ohne aktiviertes „Nerdy“-Profil auftraten. Eine Auswertung über den Trainingsverlauf zeigte: Mit dem Anstieg der Kreaturen-Erwähnungen unter „Nerdy“ stiegen sie nahezu proportional auch in Trainingsläufen ohne diese Persönlichkeit. Das Verhalten hatte sich also auf andere Kontexte übertragen. OpenAI schreibt dazu, Reinforcement Learning garantiere nicht, „dass gelernte Verhaltensweisen ordentlich auf die Bedingung beschränkt bleiben, die sie hervorgebracht hat“.

Verantwortlich ist laut OpenAI eine Rückkopplungsschleife. Ein verspielter Stil wird belohnt, einige der belohnten Beispiele enthalten einen sprachlichen Tick, dieser Tick erscheint häufiger in den Modellausgaben, und diese Ausgaben werden anschließend für Supervised Fine-Tuning wiederverwendet. Eine Durchsicht der SFT-Daten von GPT-5.5 förderte eine ganze Menagerie zutage: Neben Goblins und Gremlins tauchten auch Waschbären, Trolle, Oger und Tauben überdurchschnittlich häufig auf.

Maßnahmen gegen die Goblin-Schwemme

OpenAI hat die „Nerdy“-Persönlichkeit Mitte März abgeschaltet. Im Training wurde das problematische Belohnungssignal entfernt und Trainingsdaten mit Kreaturen-Begriffen gefiltert. Da GPT-5.5 jedoch bereits trainiert wurde, bevor die Ursache gefunden war, musste nachträglich eine Anweisung in den Developer-Prompt von Codex eingefügt werden, die das Auftreten der Wesen unterdrückt. Wer die Kreaturen dennoch erleben möchte, kann sie laut OpenAI-Anleitung freischalten, indem die entsprechende Zeile aus den Modell-Instruktionen entfernt wird.

Für OpenAI ist der Fall mehr als eine kuriose Randnotiz. Er zeige, so das Unternehmen, wie eng begrenzte Belohnungssignale auf unerwartete Kontexte übergreifen können und wie schwer solche Effekte zu erkennen sind, solange sie nicht durch eindeutige Metriken sichtbar werden. Aus der Analyse seien neue Werkzeuge zur Untersuchung von Modellverhalten entstanden, mit denen sich derartige Auffälligkeiten künftig schneller bis zu ihrer Trainingsursache zurückverfolgen lassen sollen.

Lars

Becker

Stellvertretender Chefredakteur

IT Verlag GmbH

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.