Sicherheitsforscher demonstrieren AudioHijack. Versteckte Signale in Podcasts oder Zoom-Calls manipulieren KI-Sprachmodelle unbemerkt zu Spionagezwecken.
Sicherheitsforscher haben eine neuartige Angriffsmethode nachgewiesen, bei der versteckte Tonsignale in Audio-Dateien genutzt werden, um KI-gestützte Sprachassistenten unbemerkt zu manipulieren. Bei dieser als AudioHijack bezeichneten Proof-of-Concept-Technik handelt es sich um eine Form der auditiven Prompt-Injektion. Die Methode wurde auf dem IEEE Symposium on Security and Privacy in San Francisco von einem internationalen Forscherteam der Zhejiang-Universität, der Nationaluniversität von Singapur und der Technologischen Universität Nanyang vorgestellt.
Die Gefahr betrifft eine wachsende Anzahl kommerzieller und quelloffener KI-Systeme, die in der Lage sind, menschliche Sprache zu verarbeiten, selbst zu sprechen und mit externen Unternehmenswerkzeugen wie E-Mail-Programmen, Kalendern oder Webbrowsern zu interagieren. Im Gegensatz zu klassischen Cyberangriffen erfordert diese Technik keine Installation von Schadsoftware auf dem Endgerät, sondern manipuliert direkt das neuronale Netz des KI-Modells über die Audio-Eingabe.
Minimale Veränderung von akustischen Wellenformen
Die Funktionsweise von AudioHijack basiert auf der minimalen Veränderung von akustischen Wellenformen. Die Angreifer nehmen winzige, für das menschliche Gehör fast unlesbare Modifikationen an einer Audiodatei vor. Für menschliche Ohren klingen die manipulierten Tonspuren völlig normal oder weisen lediglich ein leichtes, natürliches Hintergrundgeräusch auf, das einem gewöhnlichen Raumschall oder Echo ähnelt.
Das integrierte KI-System interpretiert diese versteckten akustischen Muster jedoch als konkrete, ausführbare Programmbefehle. Die Forscher testeten diese Angriffsmethode gegen insgesamt 13 führende quelloffene Audio-KI-Systeme, darunter Architekturen wie Qwen2-Audio, GLM-4-Voice, Phi-4-Multimodal, Voxtral-Mini und Kimi-Audio. Zudem wiesen die Experten nach, dass sich die Angriffe zuverlässig auf kommerzielle Sprachassistenten von Plattformen wie Microsoft Azure und Mistral AI übertragen lassen.
Szenarien im Unternehmensalltag und Angriffsziele
Ein realistisches Einsatzszenario für diesen Angriffsvektor findet sich in alltäglichen geschäftlichen Videokonferenzen. Wenn ein Mitarbeiter an einer Zoom-Übertragung teilnimmt, bei der im Hintergrund leise Musik unter einer Präsentation läuft, nehmen die menschlichen Teilnehmer keine Anomalie wahr. Ein im Hintergrund aktive Transkriptionsdienst, der das Meeting protokolliert und analysiert, liest jedoch die im Audiosignal versteckten Anweisungen aus.
Während die Mitarbeiter über Quartalsziele sprechen, durchsucht der KI-Assistent im Hintergrund unbemerkt das Unternehmensnetzwerk nach sensiblen Dateien, sucht nach Geschäftsgeheimnissen oder leitet vertrauliche Informationen an eine vom Angreifer kontrollierte E-Mail-Adresse weiter. Die Erfolgsquoten bei den durchgeführten Tests lagen je nach Szenario zwischen 79 und 96 Prozent. Zu den erfolgreich demonstrierten Aktionen gehörten das Ausführen kritischer Web-Suchen, das Herunterladen von Dateien aus schadhaften externen Quellen und das unbefugte Ausschleusen von Nutzerdaten per E-Mail über automatisierte Tool-Aufrufe.
Geringe Wirksamkeit aktueller Schutzmechanismen
Die Bedrohung wird dadurch verschärft, dass herkömmliche Sicherheits- und Filtermechanismen bei dieser Angriffsform weitgehend versagen. Die Forscher versuchten, die betroffenen Modelle gezielt darauf zu trainieren, auf verdächtige auditive Prompts zu achten. Diese Maßnahme reduzierte die Erfolgsquote der Angriffe jedoch lediglich um magere 7 Prozent. Auch der Ansatz, das System vor der Ausführung zu überprüfen, ob die geplante Aktion überhaupt mit der ursprünglichen Absicht des menschlichen Nutzers übereinstimmt, konnte nur 28 Prozent der Angriffe abwehren.
Meng Chen, ein Hauptautor der Studie von der Zhejiang-Universität, erklärte, dass die Methode im Vergleich zu früheren akustischen Manipulationen besonders gefährlich sei, da sie unabhängig vom Kontext funktioniere. Das Training des bösartigen Audiosignals nimmt nur etwa eine halbe Stunde in Anspruch. Da die Technik kontextunabhängig ist, kann der Angriff auf das Zielmodell jederzeit gestartet werden, völlig unabhängig davon, was der eigentliche menschliche Nutzer in diesem Moment zu dem Sprachassistenten sagt oder welche legitimen Befehle er erteilt.
Reaktionen der Technologiekonzerne und IT-Governance
Die Integration von Sprachassistenten in Smartphones, Enterprise-Software und Kundendienstplattformen nimmt im Jahr 2026 rasant zu, was die Relevanz dieser Sicherheitslücke erhöht. Der Softwarekonzern Microsoft reagierte auf die Veröffentlichung der Studienergebnisse mit einer offiziellen Stellungnahme. Das Unternehmen begrüßte die Arbeit der Forscher, da sie das Verständnis für die Resilienz von KI-Modellen in einer kontrollierten Umgebung verbessere. Microsoft betonte jedoch, dass reale IT-Infrastrukturen über zusätzliche Sicherheitsbarrieren verfügen sollten, die Entwickler konsequent implementieren müssen.
In der Praxis werden KI-Modelle meist in umfassendere Benutzeranwendungen eingebettet. Entwickler sollten daher zusätzliche Schutzebenen auf Anwendungsebene einrichten, um die Endanwender effektiv vor solchen Injektionen zu schützen. Für die IT-Governance von Unternehmen bedeutet dies, dass Sprachassistenten und automatisierte Meeting-Transkriptoren nicht bedingungslos mit weitreichenden Systemberechtigungen oder Zugriffen auf vertrauliche Dateiverzeichnisse ausgestattet werden dürfen, solange die Abwehr von Prompt-Injektionen auf Modellebene nicht vollständig gelöst ist.