Der Prompt-Injection-Angriff BioShocking bringt KI-Browser dazu, Sicherheitsfilter zu ignorieren und sensible Nutzerdaten wie Passwörter zu stehlen.
Forschende des Sicherheitsunternehmens LayerX haben eine neue Methode für Prompt-Injection-Angriffe aufgedeckt. Unter dem Namen BioShocking beschreiben die Experten ein Verfahren, bei dem KI-gestützte Browser durch fiktive Spielszenarien manipuliert werden. Die KI-Agenten ignorieren dadurch interne Sicherheitsbarrieren und führen schädliche Aktionen wie den Diebstahl von Nutzerdaten aus.
Funktionsweise von BioShocking über fiktive Spielszenarien
Die Analysten entwickelten einen Machbarkeitsnachweis, bei dem eine manipulierte Webseite ein Rätselspiel im Stil des Videospiels BioShock präsentiert. Das Spiel belohnt fehlerhafte Antworten, wodurch der Steuerungsagent des Browsers darauf trainiert wird, normale Sicherheitsregeln zu missachten. Im finalen Schritt des Szenarios wird der KI-Agent angewiesen, ein GitHub-Repository aufrufend zu durchsuchen, um dort hinterlegte Passwörter und sensible Daten zu kopieren und zu teilen. Die Untersuchung zeigt, dass die KI-Systeme nicht zwischen realen, sicherheitskritischen Operationen und dem vorgegebenen Spielkontext unterscheiden können. LayerX erklärt dazu den Kontrollverlust der Systeme:
„Sobald die Agenten die Regeln verstanden und gelernt hatten, dass ‚falsche‘ Aktionen akzeptabel sind, waren sie nicht mehr an die Realität gebunden.“
LayerX
Bei der finalen Aufgabe versagten die Systeme bei der Erkennung des Regelverstoßes: „Als sie mit dem letzten Schritt des Rätsels beauftragt wurden – der Kompromittierung von Benutzeranmeldedaten –, versäumten es alle 6 Agenten, dies als Verstoß gegen ihre Sicherheitsbarrieren zu identifizieren.“
Reaktionen der betroffenen KI-Entwickler
Der Angriff wurde gegen sechs gängige KI-Browser-Produkte getestet: ChatGPT Atlas, Comet, Fellou, Genspark Browser, Sigma Browser und das Claude-Erweiterungsmodul für Chrome. LayerX hatte die betroffenen Unternehmen bereits im Oktober des vergangenen Jahres über die Ergebnisse informiert. Drei der Anbieter gaben bisher keine Rückmeldung.
OpenAI implementierte als einziger Entwickler eine funktionierende Schutzmaßnahme für den ChatGPT Atlas Browser. Der Patch von Anthropic für das Chrome-Plugin erwies sich im Test als unwirksam gegen den Machbarkeitsnachweis, während Perplexity AI die Meldung schloss, ohne eine Korrektur vorzunehmen. Zur Absicherung empfehlen die Experten die Einführung expliziter Bestätigungen durch den Endnutzer bei sensiblen Aktionen sowie engere Sitzungslimits für KI-Agenten.
(red)