KI-gestützte Browser

BioShocking-Angriff hebelt KI-Schutzfilter aus

KI, Gefahr

Der Prompt-Injection-Angriff BioShocking bringt KI-Browser dazu, Sicherheitsfilter zu ignorieren und sensible Nutzerdaten wie Passwörter zu stehlen.

Forschende des Sicherheitsunternehmens LayerX haben eine neue Methode für Prompt-Injection-Angriffe aufgedeckt. Unter dem Namen BioShocking beschreiben die Experten ein Verfahren, bei dem KI-gestützte Browser durch fiktive Spielszenarien manipuliert werden. Die KI-Agenten ignorieren dadurch interne Sicherheitsbarrieren und führen schädliche Aktionen wie den Diebstahl von Nutzerdaten aus.

Anzeige

Funktionsweise von BioShocking über fiktive Spielszenarien

Die Analysten entwickelten einen Machbarkeitsnachweis, bei dem eine manipulierte Webseite ein Rätselspiel im Stil des Videospiels BioShock präsentiert. Das Spiel belohnt fehlerhafte Antworten, wodurch der Steuerungsagent des Browsers darauf trainiert wird, normale Sicherheitsregeln zu missachten. Im finalen Schritt des Szenarios wird der KI-Agent angewiesen, ein GitHub-Repository aufrufend zu durchsuchen, um dort hinterlegte Passwörter und sensible Daten zu kopieren und zu teilen. Die Untersuchung zeigt, dass die KI-Systeme nicht zwischen realen, sicherheitskritischen Operationen und dem vorgegebenen Spielkontext unterscheiden können. LayerX erklärt dazu den Kontrollverlust der Systeme:

„Sobald die Agenten die Regeln verstanden und gelernt hatten, dass ‚falsche‘ Aktionen akzeptabel sind, waren sie nicht mehr an die Realität gebunden.“

LayerX

Anzeige

Bei der finalen Aufgabe versagten die Systeme bei der Erkennung des Regelverstoßes: „Als sie mit dem letzten Schritt des Rätsels beauftragt wurden – der Kompromittierung von Benutzeranmeldedaten –, versäumten es alle 6 Agenten, dies als Verstoß gegen ihre Sicherheitsbarrieren zu identifizieren.“

Reaktionen der betroffenen KI-Entwickler

Der Angriff wurde gegen sechs gängige KI-Browser-Produkte getestet: ChatGPT Atlas, Comet, Fellou, Genspark Browser, Sigma Browser und das Claude-Erweiterungsmodul für Chrome. LayerX hatte die betroffenen Unternehmen bereits im Oktober des vergangenen Jahres über die Ergebnisse informiert. Drei der Anbieter gaben bisher keine Rückmeldung.

OpenAI implementierte als einziger Entwickler eine funktionierende Schutzmaßnahme für den ChatGPT Atlas Browser. Der Patch von Anthropic für das Chrome-Plugin erwies sich im Test als unwirksam gegen den Machbarkeitsnachweis, während Perplexity AI die Meldung schloss, ohne eine Korrektur vorzunehmen. Zur Absicherung empfehlen die Experten die Einführung expliziter Bestätigungen durch den Endnutzer bei sensiblen Aktionen sowie engere Sitzungslimits für KI-Agenten.

(red)

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.