OpenAI: Prompt Injection bleibt Risiko für KI-Agenten

OpenAI
Bildquelle: Prathmesh T/Shutterstock.com

Bei KI-Assistenten wie ChatGPT Atlas, die eigenständig im Browser arbeiten, wird das Einschleusen schädlicher Befehle zum wachsenden Sicherheitsproblem. OpenAI setzt auf automatisierte Angriffssimulation, um Schwachstellen frühzeitig zu erkennen.

OpenAI bezeichnet Prompt Injection als eines der größten Sicherheitsrisiken für KI-Agenten, die selbstständig Browseraufgaben übernehmen. Dabei werden Schadanweisungen in normale Webinhalte eingebettet, die der Agent dann als legitime Befehle interpretiert.

Anzeige

Neue Angriffsvektoren entdeckt

Für ChatGPT Atlas hat das Unternehmen kürzlich Sicherheitsupdates veröffentlicht. Anlass waren intern entdeckte Angriffsmuster, die durch automatisiertes Red-Teaming identifiziert wurden. Die Aktualisierung beinhaltet ein überarbeitetes Modell und zusätzliche Schutzmaßnahmen.

Das grundlegende Problem: Atlas soll Webseiten wie ein Mensch bedienen und dabei auf E-Mails, Dokumente und Online-Dienste zugreifen. Diese Fähigkeiten machen den Agenten zu einem lohnenderen Angriffsziel als herkömmliche Chatbots.

Simulation komplexer Angriffsszenarien

OpenAI entwickelte einen KI-gestützten Angreifer, der systematisch nach Schwachstellen sucht. Das System nutzt Reinforcement Learning und konzentriert sich auf mehrstufige Angriffe, die ganze Arbeitsabläufe manipulieren können.

Anzeige

Die Methodik: Der simulierte Angreifer testet Injection-Versuche an einem Modell des Ziel-Agenten, erhält dessen Reaktionen als Feedback und optimiert daraufhin seine Strategie. Durch den internen Zugriff auf die Denkprozesse des Agenten hofft OpenAI, externen Angreifern voraus zu sein.

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

Beispielszenario zeigt Gefahrenpotenzial

In einer Testumgebung platzierte der automatisierte Angreifer eine präparierte E-Mail mit versteckten Anweisungen im Postfach. Als der Nutzer den Agenten bat, eine Abwesenheitsnotiz zu erstellen, fand dieser die manipulierte Nachricht, befolgte die darin versteckten Befehle und verschickte stattdessen ein Kündigungsschreiben.

Das Szenario verdeutlicht den Paradigmenwechsel: Statt Menschen zu überzeugen, zielen solche Angriffe darauf ab, handlungsfähige Agenten direkt zu steuern.

Vollständige Lösung nicht absehbar

OpenAI sucht derzeit nach einem “Head of Preparedness” für KI-Sicherheitsrisiken. CEO Sam Altman verwies auf wachsende Herausforderungen durch leistungsfähigere Modelle, etwa beim Auffinden von Sicherheitslücken. Das 2023 gegründete Preparedness-Team des Unternehmens untersucht Risikospektren von Phishing bis zu hypothetischen Extremszenarien. Allerdings gab es seitdem mehrere Abgänge im Sicherheitsbereich, was Fragen aufwarf.

Lars

Becker

Redakteur

IT Verlag GmbH

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.