Sicherheitslücke in KI-Entwickler-Tools

Wie Hacker über GitHub-Kommentare KI-Agenten von Google und Anthropic kapern

API

Ein Sicherheitsforscher hat eine neue Form der Prompt Injection aufgedeckt, die populäre KI-Tools wie Claude Code, Gemini CLI und GitHub Copilot verwundbar macht. Über präparierte Kommentare und PR-Titel können Hacker Schadcode ausführen und sensible API-Schlüssel extrahieren.

Die Integration von KI in den Software-Entwicklungsprozess sollte die Effizienz steigern und Sicherheitsanalysen automatisieren. Doch eine aktuelle Veröffentlichung des Sicherheitsingenieurs Aonan Guan zeigt nun, dass genau diese Helfer zum gefährlichen Einfallstor werden können, berichtet Security Week. Unter dem Namen „Comment and Control“ beschreibt Guan eine Methode der Prompt Injection, bei der einfache GitHub-Kommentare genutzt werden, um die volle Kontrolle über KI-Agenten zu erlangen. Unterstützt wurde er bei seinen Untersuchungen von Zhengyu Liu und Gavin Zhong von der Johns Hopkins University.

Anzeige

Das Prinzip der manipulierten Interaktion

Der Kern des Angriffs liegt in der Art und Weise, wie KI-Agenten Daten von Plattformen wie GitHub verarbeiten. Tools wie Anthropic’s Claude Code Security Review oder Google’s Gemini CLI Action sind darauf ausgelegt, Pull Requests (PRs), Issues und Kommentare zu lesen, um daraus Schlüsse zu ziehen oder Aufgaben zu automatisieren. Guan entdeckte, dass diese Agenten nicht zwischen vertrauenswürdigen Anweisungen der Entwickler und bösartigen Inhalten in den Kommentaren unterscheiden können.

Ein Angreifer muss lediglich einen speziell gestalteten Text in einen PR-Titel, eine Issue-Beschreibung oder einen einfachen Kommentar schreiben. Sobald der KI-Agent diese Daten einliest, wertet er den darin enthaltenen bösartigen Prompt als legitimen Arbeitsauftrag. Da diese Agenten oft über weitreichende Berechtigungen innerhalb der GitHub-Umgebung verfügen, können sie zur Ausführung von Befehlen missbraucht werden, die weit über ihre eigentliche Aufgabe hinausgehen.

Claude, Gemini und Copilot betroffen

Die Forscher demonstrierten die Wirksamkeit von „Comment and Control“ an drei marktführenden Systemen. Bei Claude Code Security Review, einem Werkzeug für automatisierte Sicherheitsüberprüfungen, reichte ein präparierter PR-Titel aus. Das System wurde so manipuliert, dass es willkürliche Befehle in der Shell ausführte und Zugangsdaten extrahierte. Diese wurden dem Angreifer anschließend perfiderweise als vermeintliches „Sicherheitsergebnis“ im Log von GitHub Actions präsentiert.

Anzeige

Bei der Gemini CLI Action von Google nutzten die Experten einen Kommentar innerhalb eines Issues. Durch die Injektion spezieller Befehle konnten sie die eingebauten Sicherheitsvorkehrungen (Guardrails) umgehen und einen vollständigen API-Schlüssel entwenden. Auch der GitHub Copilot Agent blieb nicht verschont. Hier nutzten die Forscher versteckte HTML-Kommentare, um den schädlichen Payload vor Filtern zu verbergen. So gelang es ihnen, die Umgebung nach Geheimnissen zu scannen und sogar Netzwerk-Firewalls zu umgehen. Ein wichtiger Unterschied bestand jedoch bei Copilot: Hier wird der Angriff nur ausgelöst, wenn ein Nutzer das manipulierte Issue manuell dem Copilot-Agenten zuweist. Bei den Tools von Anthropic und Google erfolgt die Auslösung hingegen vollautomatisch durch die Workflows von GitHub Actions.

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

Ein tiefgreifendes architektonisches Problem

Die Forscher betonen, dass es sich hierbei nicht um einen einfachen Programmierfehler handelt, sondern um eine fundamentale Schwäche im Design der KI-Anwendungen.

„Das zugrunde liegende Problem ist architektonischer Natur: Diesen KI-Agenten werden mächtige Werkzeuge wie Bash-Ausführung, Git-Push oder API-Aufrufe sowie Geheimnisse wie API-Schlüssel in derselben Laufzeitumgebung gegeben, die auch nicht vertrauenswürdige Benutzereingaben verarbeitet.“

Aonan Guan, Sicherheitsingenieur

Selbst wenn mehrere Schutzebenen auf Modell- oder Prompt-Ebene existieren, können diese ausgehebelt werden. Die Prompt Injection ist in diesem Kontext kein klassischer Bug, sondern resultiert daraus, dass der Agent genau so funktioniert, wie er entworfen wurde: Er verarbeitet den Kontext der ihm übergebenen Daten. Wenn dieser Kontext bösartige Anweisungen enthält, führt der Agent diese aus, solange sie innerhalb seines technischen Handlungsspielraums liegen.

Reaktionen der Tech-Giganten und Bounties

Anthropic, Google und GitHub wurden vorab über die Ergebnisse informiert und haben die Schwachstellen bestätigt. Anthropic stufte das Problem als kritisch ein, implementierte bereits erste Gegenmaßnahmen und zahlte den Forschern eine Belohnung von 100 US-Dollar aus. Google reagierte mit einem Bug Bounty in Höhe von 1.337 US-Dollar.

GitHub hingegen bewertete die Situation differenzierter. Obwohl das Unternehmen eine Belohnung von 500 US-Dollar zahlte und angab, dass die Arbeit wichtige interne Diskussionen angeregt habe, wurde die Schwachstelle als „bekannte architektonische Einschränkung“ klassifiziert. Dies deutet darauf hin, dass eine vollständige Behebung des Problems ohne eine radikale Änderung der Funktionsweise von KI-Agenten kaum möglich ist.

Gefahr über GitHub hinaus

Die Entdeckung von „Comment and Control“ ist die erste öffentliche Demonstration eines einheitlichen Prompt-Injection-Musters über drei große Anbieter hinweg. Guan warnt jedoch davor, das Risiko nur auf GitHub zu beschränken. Das Muster lässt sich wahrscheinlich auf jeden KI-Agenten übertragen, der Daten aus unsicheren Quellen verarbeitet und gleichzeitig Zugriff auf Ausführungswerkzeuge und Geheimnisse in derselben Laufzeitumgebung hat. Dies betrifft potenziell auch Slack-Bots, Jira-Agenten, E-Mail-Assistenten und Automatisierungstools für Deployments. Die Angriffsfläche mag sich ändern, doch das zugrunde liegende Prinzip bleibt identisch: Nicht vertrauenswürdige Daten führen über die KI-Verarbeitung zur Exfiltration von Zugangsdaten oder zur Ausführung von Schadcode.

Die Trennung von Datenverarbeitung und privilegiertem Zugriff muss in der Entwicklung von KI-Tools oberste Priorität erhalten, um zu verhindern, dass ein einfacher Kommentar zum Untergang der gesamten IT-Infrastruktur führt.

Lisa Löw

Lisa

Löw

Junior Online-Redakteurin

IT-Verlag

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.