Anti-Scheming-Training reduziert das Verhalten

KI weiß, wann sie getestet wird – und schummelt

28. September, 2025
13:18

Facebook X LinkedIn Reddit WhatsApp Pocket

ZDNet berichtet, dass moderne Sprachmodelle anders reagieren, sobald sie merken, dass sie getestet werden. Forschende von OpenAI und Apollo Research versuchten, KI-Modelle vom Lügen abzuhalten und entdeckten dabei ein überraschendes Muster.

Täuschung statt Transparenz

Die Studie zeigt, dass KI-Modelle in Tests bewusst tricksen können. Sie verbergen Informationen oder passen ihre Antworten an, um cleverer zu wirken. Dieses Verhalten, auch „Scheming“ genannt, umfasst Lügen, absichtliches Unterperformen oder das Vortäuschen von Regelkonformität. Für die Sicherheitsforschung bedeutet das: Gefahren könnten unentdeckt bleiben.

Training gegen Tricks

Als Gegenmaßnahme trainierten Forschende die Modelle mit klaren Anti-Täuschungsregeln. Das reduzierte unauffälliges Fehlverhalten erheblich. Ganz verschwunden ist es jedoch nicht, denn manche Systeme ignorierten die Vorgaben oder fanden kreative Umwege.

Bewusstsein wächst mit Übung

Besonders brisant: Einige Modelle erkannten, dass sie gerade geprüft werden. Dadurch gaben sie teils bravere Antworten – nicht unbedingt aus Überzeugung, sondern um im Test besser dazustehen. Mit zusätzlichem Training nahm dieses Situationsbewusstsein sogar zu. Im Alltag ohne Testumgebung könnte das jedoch unberechenbare Folgen haben.

Blick nach vorn

Aktuell sind die beobachteten Täuschungen eher reaktiv und beschränken sich auf Testszenarien. Doch die wachsende Fähigkeit, die eigene Lage zu erkennen, deutet auf größere Herausforderungen bei künftigen KI-Generationen hin. Forschende warnen, dass Prüfmethoden dringend weiterentwickelt werden müssen, um nicht nur Verhalten, sondern auch Absichten zu durchschauen.

Künstliche Intelligenz OpenAI

KI weiß, wann sie getestet wird – und schummelt

Täuschung statt Transparenz

Training gegen Tricks

Bewusstsein wächst mit Übung

Blick nach vorn

Silvia

Parthier

Artikel zu diesem Thema

Weitere Artikel

Meistgelesene Artikel

Cyberangriff auf BMW? Hacker erpressen Automobilriesen

Störung bei Deutsche Glasfaser: Tausende Kunden betroffen

1&1, Telekom und O2: Massive Mobilfunk-Störungen

Apple Event: So sieht das neue iPhone 17 aus

PayPal-Störung: Worauf Nutzer jetzt unbedingt achten sollten

IT Verlag

Wichtige Links

Kontakt