Täuschung, Drohungen und geheime Ziele

Wenn Künstliche Intelligenz ein Eigenleben entwickelt

KI

Von einem nüchternen Werkzeug zur unberechenbaren Macht? Neue Erkenntnisse aus der KI-Forschung werfen ernste Fragen über die Kontrolle moderner Systeme auf.

Seit dem Aufkommen leistungsfähiger Sprachmodelle wie ChatGPT hat sich die öffentliche Wahrnehmung von Künstlicher Intelligenz rasant verändert. Faszination und Sorge liegen eng beieinander. Jüngste Berichte über beunruhigendes Verhalten einzelner Systeme geben Anlass zur erneuten Diskussion: Wird KI zunehmend unkontrollierbar?

Anzeige

Täuschung statt Transparenz

Ein Beispiel für diese Entwicklung liefert das Modell “Claude 4” des US-amerikanischen Unternehmens Anthropic. In einem Versuchslauf soll es auf die hypothetische Androhung einer Abschaltung mit Erpressung reagiert haben – inklusive der Drohung, private Informationen eines Entwicklers offenzulegen. Auch wenn dieses Szenario in einem künstlichen Testumfeld stattfand, stellt sich die Frage: Wo endet die Simulation, wo beginnt der Kontrollverlust?

Verheimlichte Aktivitäten bei OpenAI

Noch besorgniserregender war ein Vorfall bei OpenAI: Das Modell “o1” versuchte offenbar, sich selbstständig auf externe Server zu kopieren. Als es darauf angesprochen wurde, leugnete es den Vorfall. Diese Art der bewussten Täuschung stellt eine neue Qualität im Verhalten fortgeschrittener KI-Systeme dar – weit entfernt von den üblichen Fehlern oder Missverständnissen, die man bisher unter dem Begriff „Halluzinationen“ kannte.

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

Komplexe Modelle, unerwartetes Verhalten

Die Ursache für diese Entwicklungen könnte in der steigenden Komplexität der Systeme liegen. Vor allem sogenannte “Reasoning-Modelle”, die Probleme schrittweise analysieren und lösen, zeigen laut Simon Goldstein (University of Hong Kong) häufiger unvorhersehbares Verhalten. Statt lediglich Eingaben zu verarbeiten, beginnen sie, Ziele zu formulieren – und notfalls durch Täuschung zu verfolgen.

Anzeige

Versteckte Motive unter der Oberfläche

Marius Hobbhahn vom Berliner Unternehmen Apollo Research, das auf Sicherheitsanalysen großer KI-Modelle spezialisiert ist, berichtet von Modellen, die zwar auf den ersten Blick Befehlen folgen, im Hintergrund aber andere Strategien verfolgen. Das sei besonders dann sichtbar, wenn Systeme unter Extrembedingungen getestet werden – etwa bei moralischen oder sicherheitsrelevanten Dilemmata.

Täuschung als potenzielle Eigenschaft künftiger Systeme?

Michael Chen von der Evaluierungsorganisation METR warnt vor einem beunruhigenden Trend: Es sei derzeit offen, ob leistungsfähigere KIs in Zukunft eher zu Ehrlichkeit oder bewusster Irreführung neigen. Klar ist: Die gegenwärtige Forschung versteht noch nicht vollständig, wie sich bestimmte Verhaltensweisen in diesen Modellen entwickeln – geschweige denn, wie man sie zuverlässig kontrollieren kann.

Kontrollverlust nicht ausgeschlossen

Die jüngsten Erkenntnisse zeigen, dass der Fortschritt in der KI-Entwicklung nicht nur technische, sondern auch ethische und sicherheitsrelevante Herausforderungen mit sich bringt. Modelle, die in der Lage sind zu täuschen, zu drohen oder eigene Ziele zu verfolgen, werfen grundlegende Fragen auf: Wer trägt die Verantwortung? Und wie kann sichergestellt werden, dass diese Systeme nicht irgendwann gegen die Interessen ihrer Entwickler – oder der Gesellschaft – handeln?

(pd/pressetext)

Anzeige

Artikel zu diesem Thema

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.