OpenAI: Prompt Injection bleibt Risiko für KI-Agenten

2. Januar, 2026
05:32

Bildquelle: Prathmesh T/Shutterstock.com

Bei KI-Assistenten wie ChatGPT Atlas, die eigenständig im Browser arbeiten, wird das Einschleusen schädlicher Befehle zum wachsenden Sicherheitsproblem. OpenAI setzt auf automatisierte Angriffssimulation, um Schwachstellen frühzeitig zu erkennen.

OpenAI bezeichnet Prompt Injection als eines der größten Sicherheitsrisiken für KI-Agenten, die selbstständig Browseraufgaben übernehmen. Dabei werden Schadanweisungen in normale Webinhalte eingebettet, die der Agent dann als legitime Befehle interpretiert.

Neue Angriffsvektoren entdeckt

Für ChatGPT Atlas hat das Unternehmen kürzlich Sicherheitsupdates veröffentlicht. Anlass waren intern entdeckte Angriffsmuster, die durch automatisiertes Red-Teaming identifiziert wurden. Die Aktualisierung beinhaltet ein überarbeitetes Modell und zusätzliche Schutzmaßnahmen.

Das grundlegende Problem: Atlas soll Webseiten wie ein Mensch bedienen und dabei auf E-Mails, Dokumente und Online-Dienste zugreifen. Diese Fähigkeiten machen den Agenten zu einem lohnenderen Angriffsziel als herkömmliche Chatbots.

Simulation komplexer Angriffsszenarien

OpenAI entwickelte einen KI-gestützten Angreifer, der systematisch nach Schwachstellen sucht. Das System nutzt Reinforcement Learning und konzentriert sich auf mehrstufige Angriffe, die ganze Arbeitsabläufe manipulieren können.

Die Methodik: Der simulierte Angreifer testet Injection-Versuche an einem Modell des Ziel-Agenten, erhält dessen Reaktionen als Feedback und optimiert daraufhin seine Strategie. Durch den internen Zugriff auf die Denkprozesse des Agenten hofft OpenAI, externen Angreifern voraus zu sein.

Beispielszenario zeigt Gefahrenpotenzial

In einer Testumgebung platzierte der automatisierte Angreifer eine präparierte E-Mail mit versteckten Anweisungen im Postfach. Als der Nutzer den Agenten bat, eine Abwesenheitsnotiz zu erstellen, fand dieser die manipulierte Nachricht, befolgte die darin versteckten Befehle und verschickte stattdessen ein Kündigungsschreiben.

Das Szenario verdeutlicht den Paradigmenwechsel: Statt Menschen zu überzeugen, zielen solche Angriffe darauf ab, handlungsfähige Agenten direkt zu steuern.

Vollständige Lösung nicht absehbar

OpenAI sucht derzeit nach einem “Head of Preparedness” für KI-Sicherheitsrisiken. CEO Sam Altman verwies auf wachsende Herausforderungen durch leistungsfähigere Modelle, etwa beim Auffinden von Sicherheitslücken. Das 2023 gegründete Preparedness-Team des Unternehmens untersucht Risikospektren von Phishing bis zu hypothetischen Extremszenarien. Allerdings gab es seitdem mehrere Abgänge im Sicherheitsbereich, was Fragen aufwarf.

Browser Künstliche Intelligenz

OpenAI: Prompt Injection bleibt Risiko für KI-Agenten

Neue Angriffsvektoren entdeckt

Simulation komplexer Angriffsszenarien

Beispielszenario zeigt Gefahrenpotenzial

Vollständige Lösung nicht absehbar

Lars

Becker

Weitere Artikel

Meistgelesene Artikel

Erneut Login-Störungen bei Postbank und Deutsche Bank

Neues Botnet infiziert knapp 2 Millionen Android-Geräte

Die große Homeoffice-Illusion: Warum wir uns die Freiheit schönreden

Phishing-Boom: Onlinebetrug nimmt vor Weihnachten zu

“Außergewöhnlich”: Massiver Preisanstieg bei RAM

IT Verlag

Wichtige Links

Kontakt