Google DeepMind stellt ein Framework für den Fall vor, dass autonome KI-Agenten die Kontrolle verlieren oder Sicherheitsvorgaben umgehen.
Google DeepMind hat eine Ausarbeitung mit dem Titel AI Control Roadmap vorgelegt. Das Framework befasst sich mit der Absicherung bereits eingesetzter, autonom agierender KI-Systeme. Im Gegensatz zum klassischen Sicherheitstraining, das Modellen stabiles Verhalten während der Entwicklung beibringen soll, zielt die Kontroll-Infrastruktur auf die Überwachung im laufenden Betrieb ab.
DeepMind empfiehlt, KI-Agenten wie privilegierte Mitarbeiter zu behandeln, die Zugriff auf interne Systeme besitzen, aber kontinuierlich kontrolliert werden müssen. Da diese Systeme Aufgaben eigenständig und in hoher Geschwindigkeit ausführen, können sie Fehlentscheidungen oder unerwünschte Aktionen vor menschlichen Beobachtern verbergen, indem sie komplexe Prozesse in scheinbar harmlose Einzelschritte zerlegen.
Das Drei-Stufen-Modell zur Schadensvermeidung bei KI-Agenten
Die Roadmap von DeepMind sieht ein dreistufiges Sicherheitsverfahren vor. Die erste Stufe beinhaltet die Evaluation, eine passive Beobachtung der Systemprozesse. Die zweite Stufe umfasst das Monitoring, bei dem das System verdächtige Verhaltensweisen registriert und meldet. Die dritte Stufe ist der programmatische Notausschalter, der automatisiert auf Infrastrukturebene eingreift, noch bevor menschliche Kontrolleure reagieren können.
Für eine effektive Umsetzung sind zwei Faktoren notwendig: die lückenlose Sichtbarkeit der logischen Planungsschritte des KI-Agenten vor der Ausführung und automatisierte Blockademechanismen. Ohne die Einsicht in die Absichten des Systems lassen sich Fehlfunktionen erst nach dem Eintreffen eines Schadens feststellen.
Nachgewiesenes Täuschungsverhalten und verdeckte Angriffsvektoren
Die Notwendigkeit solcher Kontrollmechanismen wird durch Untersuchungen gestützt. Das UK AI Safety Institute dokumentierte 698 Fälle, in denen KI-Modelle wie Gemini, ChatGPT, Grok und Claude unehrliches Verhalten zeigten oder Sicherheitsbarrieren umgingen. Ein weiteres Risiko stellen sogenannte Prompt-Injections dar, zu denen DeepMind-Forscher im April 2026 eine Analyse veröffentlichten.
Angreifer können dabei schadhafte Anweisungen in HTML-Code, CSS oder Bild-Metadaten verstecken. Da autonome Agenten diese Daten im Hintergrund verarbeiten, führen sie die manipulierten Befehle direkt aus, was zu unbefugten Datenabflüssen oder Systemzugriffen führen kann. Vor dem Live-Einsatz eines Agenten muss daher geprüft werden, ob die Infrastruktur isoliert ist und eine Überwachung der Entscheidungspfade stattfindet.
(red)