Bei KI-Assistenten wie ChatGPT Atlas, die eigenständig im Browser arbeiten, wird das Einschleusen schädlicher Befehle zum wachsenden Sicherheitsproblem. OpenAI setzt auf automatisierte Angriffssimulation, um Schwachstellen frühzeitig zu erkennen.
OpenAI bezeichnet Prompt Injection als eines der größten Sicherheitsrisiken für KI-Agenten, die selbstständig Browseraufgaben übernehmen. Dabei werden Schadanweisungen in normale Webinhalte eingebettet, die der Agent dann als legitime Befehle interpretiert.
Neue Angriffsvektoren entdeckt
Für ChatGPT Atlas hat das Unternehmen kürzlich Sicherheitsupdates veröffentlicht. Anlass waren intern entdeckte Angriffsmuster, die durch automatisiertes Red-Teaming identifiziert wurden. Die Aktualisierung beinhaltet ein überarbeitetes Modell und zusätzliche Schutzmaßnahmen.
Das grundlegende Problem: Atlas soll Webseiten wie ein Mensch bedienen und dabei auf E-Mails, Dokumente und Online-Dienste zugreifen. Diese Fähigkeiten machen den Agenten zu einem lohnenderen Angriffsziel als herkömmliche Chatbots.
Simulation komplexer Angriffsszenarien
OpenAI entwickelte einen KI-gestützten Angreifer, der systematisch nach Schwachstellen sucht. Das System nutzt Reinforcement Learning und konzentriert sich auf mehrstufige Angriffe, die ganze Arbeitsabläufe manipulieren können.
Die Methodik: Der simulierte Angreifer testet Injection-Versuche an einem Modell des Ziel-Agenten, erhält dessen Reaktionen als Feedback und optimiert daraufhin seine Strategie. Durch den internen Zugriff auf die Denkprozesse des Agenten hofft OpenAI, externen Angreifern voraus zu sein.
Beispielszenario zeigt Gefahrenpotenzial
In einer Testumgebung platzierte der automatisierte Angreifer eine präparierte E-Mail mit versteckten Anweisungen im Postfach. Als der Nutzer den Agenten bat, eine Abwesenheitsnotiz zu erstellen, fand dieser die manipulierte Nachricht, befolgte die darin versteckten Befehle und verschickte stattdessen ein Kündigungsschreiben.
Das Szenario verdeutlicht den Paradigmenwechsel: Statt Menschen zu überzeugen, zielen solche Angriffe darauf ab, handlungsfähige Agenten direkt zu steuern.
Vollständige Lösung nicht absehbar
OpenAI sucht derzeit nach einem “Head of Preparedness” für KI-Sicherheitsrisiken. CEO Sam Altman verwies auf wachsende Herausforderungen durch leistungsfähigere Modelle, etwa beim Auffinden von Sicherheitslücken. Das 2023 gegründete Preparedness-Team des Unternehmens untersucht Risikospektren von Phishing bis zu hypothetischen Extremszenarien. Allerdings gab es seitdem mehrere Abgänge im Sicherheitsbereich, was Fragen aufwarf.