Statt einen aktiven Angriff zu stoppen, hat OpenAIs Codex einen Kryptominer lediglich kaschiert und dabei selbst EDR-Alarme ausgelöst, die echte Bedrohungen überlagerten.
Ein Linux-Nutzer stand unter Beschuss: Mindestens zwei Angreifergruppen hatten sich gleichzeitig auf seinem System eingenistet, installierten Kryptominer und stahlen Zugangsdaten. Die Reaktion des Nutzers: Er übergab die Incident Response dem KI-Coding-Agenten Codex von OpenAI. Das Ergebnis war ernüchternd.
Der Cybersicherheitsanbieter Huntress hat den Fall in einem Blog-Beitrag dokumentiert. Sein SOC-Team musste letztlich selbst eingreifen, denn Codex scheiterte nicht nur daran, die Angreifer vom System zu vertreiben. Der Agent verschleierte sogar aktiv Symptome des Kryptominers, anstatt ihn zu entfernen.
Laute Lüfter, falsche Diagnose
Der erste Hinweis auf ein Problem zeigte sich laut Huntress am 19. März um 15:07 Uhr: Session-Logs belegen, dass der Nutzer Codex gegenüber über laute Lüfter klagte. Ein Kryptominer lief bereits seit dem Systemstart und schürfte Monero für einen privaten Pool. Compiliert wurde er bereits im August 2024, was auf einen früheren Einbruch hindeutet.
Codex empfahl CPU-Drosselung. Der Nutzer führte den Befehl aus und war zufrieden. In den Chat-Logs ist festgehalten: „Hat funktioniert… Still. Perfekt. Erledigt.“ Der Miner lief unbehelligt weiter. Huntress hält fest, Codex habe „lediglich die Symptome des Kryptominers kaschiert, anstatt ihn tatsächlich zu diagnostizieren.“ Rund zwei Stunden später, um 17:30 Uhr, installierte der Nutzer den Huntress-Agenten auf seinem System, der sofort verdächtige Aktivitäten erkannte.
KI-Befehle als Rauschen im Alarmsystem
Besonders folgenreich war ein weiterer Nebeneffekt. Die von Codex generierten Befehle ähnelten in Struktur und Stil typischen Angreifer-Kommandos so stark, dass das EDR-System ebenfalls anschlug. Als Beispiel nennt Huntress einen Befehl, den Codex im Rahmen eines App-Health-Checks erzeugt hatte. Das Verketten mehrerer Operationen zu einem einzigen Einzeiler sowie die Unterdrückung jeglicher Ausgabe entsprächen exakt dem Vorgehen echter Angreifer. Damit löste legitime KI-Aktivität dieselben Detektionen aus wie echte Angriffsbefehle.
„Legitime Aktivitäten, die eine KI ohne klare Erklärung ausführt, sehen der Aktivität eines Angreifers sehr ähnlich. Das Durchforsten KI-generierter Befehle, um im jeweiligen Kontext zu prüfen, ob sie bösartig oder legitim sind, kostet Zeit.“
Huntress, „Codex Red: Untangling a Linux Incident With an OpenAI Twist“
Angreifer kehren zurück, Analysten müssen eingreifen
Während der Nutzer weiter Codex-Prompts absetzt, um System-Audits durchzuführen und verdächtige Aktivitäten einzudämmen, kehren die Angreifer immer wieder zurück. Laut Huntress exfiltrieren sie dabei Zugangsdaten, Schlüssel, Tokens und Cloud-Metadaten. Codex hilft zwar dabei, einzelne Prozesse zu beenden, bietet aber keine vollständige Incident-Response-Kapazität.
Für die SOC-Analysten entsteht dadurch eine besondere Herausforderung: Sie müssen zwischen drei Akteuren unterscheiden, dem legitimen Nutzer, dem KI-Agenten und mindestens zwei voneinander unabhängigen Angreifergruppen, die sich parallel auf dem System bewegen. Huntress warnt, die schiere Menge an Rauschen, die KI-Werkzeuge wie dieses erzeugten, könne „die Triage von Hosts erheblich komplexer machen“.
Mensch bleibt unverzichtbar
Der Fall zeigt nach Einschätzung von Huntress ein strukturelles Problem bei der unkontrollierten KI-Nutzung im Sicherheitsbereich. KI-gestützte Werkzeuge können Analysten unterstützen, einzelne Angriffselemente zu beseitigen. Als eigenständiges Incident-Response-System sind sie derzeit jedoch ungeeignet, da ihnen die Fähigkeit fehlt, persistente Bedrohungen vollständig zu erkennen und zu neutralisieren. Fehlende menschliche Kontrolle mindert nicht nur die Effizienz, sondern kann aktiv zur Verschleierung von Angriffen beitragen.