Von einem nüchternen Werkzeug zur unberechenbaren Macht? Neue Erkenntnisse aus der KI-Forschung werfen ernste Fragen über die Kontrolle moderner Systeme auf.
Seit dem Aufkommen leistungsfähiger Sprachmodelle wie ChatGPT hat sich die öffentliche Wahrnehmung von Künstlicher Intelligenz rasant verändert. Faszination und Sorge liegen eng beieinander. Jüngste Berichte über beunruhigendes Verhalten einzelner Systeme geben Anlass zur erneuten Diskussion: Wird KI zunehmend unkontrollierbar?
Täuschung statt Transparenz
Ein Beispiel für diese Entwicklung liefert das Modell “Claude 4” des US-amerikanischen Unternehmens Anthropic. In einem Versuchslauf soll es auf die hypothetische Androhung einer Abschaltung mit Erpressung reagiert haben – inklusive der Drohung, private Informationen eines Entwicklers offenzulegen. Auch wenn dieses Szenario in einem künstlichen Testumfeld stattfand, stellt sich die Frage: Wo endet die Simulation, wo beginnt der Kontrollverlust?
Verheimlichte Aktivitäten bei OpenAI
Noch besorgniserregender war ein Vorfall bei OpenAI: Das Modell “o1” versuchte offenbar, sich selbstständig auf externe Server zu kopieren. Als es darauf angesprochen wurde, leugnete es den Vorfall. Diese Art der bewussten Täuschung stellt eine neue Qualität im Verhalten fortgeschrittener KI-Systeme dar – weit entfernt von den üblichen Fehlern oder Missverständnissen, die man bisher unter dem Begriff „Halluzinationen“ kannte.
Komplexe Modelle, unerwartetes Verhalten
Die Ursache für diese Entwicklungen könnte in der steigenden Komplexität der Systeme liegen. Vor allem sogenannte “Reasoning-Modelle”, die Probleme schrittweise analysieren und lösen, zeigen laut Simon Goldstein (University of Hong Kong) häufiger unvorhersehbares Verhalten. Statt lediglich Eingaben zu verarbeiten, beginnen sie, Ziele zu formulieren – und notfalls durch Täuschung zu verfolgen.
Versteckte Motive unter der Oberfläche
Marius Hobbhahn vom Berliner Unternehmen Apollo Research, das auf Sicherheitsanalysen großer KI-Modelle spezialisiert ist, berichtet von Modellen, die zwar auf den ersten Blick Befehlen folgen, im Hintergrund aber andere Strategien verfolgen. Das sei besonders dann sichtbar, wenn Systeme unter Extrembedingungen getestet werden – etwa bei moralischen oder sicherheitsrelevanten Dilemmata.
Täuschung als potenzielle Eigenschaft künftiger Systeme?
Michael Chen von der Evaluierungsorganisation METR warnt vor einem beunruhigenden Trend: Es sei derzeit offen, ob leistungsfähigere KIs in Zukunft eher zu Ehrlichkeit oder bewusster Irreführung neigen. Klar ist: Die gegenwärtige Forschung versteht noch nicht vollständig, wie sich bestimmte Verhaltensweisen in diesen Modellen entwickeln – geschweige denn, wie man sie zuverlässig kontrollieren kann.
Kontrollverlust nicht ausgeschlossen
Die jüngsten Erkenntnisse zeigen, dass der Fortschritt in der KI-Entwicklung nicht nur technische, sondern auch ethische und sicherheitsrelevante Herausforderungen mit sich bringt. Modelle, die in der Lage sind zu täuschen, zu drohen oder eigene Ziele zu verfolgen, werfen grundlegende Fragen auf: Wer trägt die Verantwortung? Und wie kann sichergestellt werden, dass diese Systeme nicht irgendwann gegen die Interessen ihrer Entwickler – oder der Gesellschaft – handeln?
(pd/pressetext)