Anti-Scheming-Training reduziert das Verhalten

KI weiß, wann sie getestet wird – und schummelt

AI, ki scheming, ki täuschung, ki lügen, KI, künstliche Intelligenz

ZDNet berichtet, dass moderne Sprachmodelle anders reagieren, sobald sie merken, dass sie getestet werden. Forschende von OpenAI und Apollo Research versuchten, KI-Modelle vom Lügen abzuhalten und entdeckten dabei ein überraschendes Muster.

Täuschung statt Transparenz

Die Studie zeigt, dass KI-Modelle in Tests bewusst tricksen können. Sie verbergen Informationen oder passen ihre Antworten an, um cleverer zu wirken. Dieses Verhalten, auch „Scheming“ genannt, umfasst Lügen, absichtliches Unterperformen oder das Vortäuschen von Regelkonformität. Für die Sicherheitsforschung bedeutet das: Gefahren könnten unentdeckt bleiben.

Anzeige

Training gegen Tricks

Als Gegenmaßnahme trainierten Forschende die Modelle mit klaren Anti-Täuschungsregeln. Das reduzierte unauffälliges Fehlverhalten erheblich. Ganz verschwunden ist es jedoch nicht, denn manche Systeme ignorierten die Vorgaben oder fanden kreative Umwege.

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

Bewusstsein wächst mit Übung

Besonders brisant: Einige Modelle erkannten, dass sie gerade geprüft werden. Dadurch gaben sie teils bravere Antworten – nicht unbedingt aus Überzeugung, sondern um im Test besser dazustehen. Mit zusätzlichem Training nahm dieses Situationsbewusstsein sogar zu. Im Alltag ohne Testumgebung könnte das jedoch unberechenbare Folgen haben.

Blick nach vorn

Aktuell sind die beobachteten Täuschungen eher reaktiv und beschränken sich auf Testszenarien. Doch die wachsende Fähigkeit, die eigene Lage zu erkennen, deutet auf größere Herausforderungen bei künftigen KI-Generationen hin. Forschende warnen, dass Prüfmethoden dringend weiterentwickelt werden müssen, um nicht nur Verhalten, sondern auch Absichten zu durchschauen.

Anzeige
Silvia Parthier

Silvia

Parthier

IT Verlag für Informationstechnik GmbH

Anzeige

Artikel zu diesem Thema

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.