Automatisierte Schwachstellen-Verkettung

Zu mächtig für den Release: Cloudflare warnt vor Cyber-KI Mythos

Claude-Mythos
Bildquelle-gguy-Shutterstock.com

Nach internen Tests warnt Cloudflare vor der neuen Anthropic-KI Mythos, die harmlose Software-Fehler autonom zu schweren Cyber-Angriffen verketten kann.

Der globale Cloud- und Internet-Infrastrukturdienstleister Cloudflare hat detaillierte Untersuchungsergebnisse zum hochentwickelten KI-Modell „Mythos Preview“ des Entwicklers Anthropic veröffentlicht. In einem offiziellen Blogbeitrag am Montag legte Cloudflare-Sicherheitschef (Chief Security Officer) Grant Bourzikas dar, dass das System über weitreichende Fähigkeiten bei der automatisierten Entdeckung und Ausnutzung von Software-Schwachstellen verfügt. Aufgrund der enormen technologischen Reife und des inhärenten Missbrauchspotenzials warnt das Unternehmen vor einer verfrühten öffentlichen Freigabe des Modells. Bevor die Allgemeinheit Zugriff erhalte, müssten zusätzliche, robuste Sicherheitsbarrieren implementiert werden. Cloudflare besitzt ein direktes Interesse an der Stabilität solcher Systeme, da das Unternehmen Kernstrukturen des globalen Internets absichert und Ausfälle oder erfolgreiche Lieferketten-Angriffe fatale wirtschaftliche Folgen für Millionen Kunden nach sich ziehen können.

Anzeige

Mythos hat mehr Verarbeitungsqualität und Kontextanalyse

Um das Potenzial von Mythos praxisnah zu evaluieren, integrierte das Sicherheitsteam von Cloudflare das Modell in eine hauseigene Testumgebung und wendete es auf mehr als 50 interne Produktiv-Repositories an. Das Spektrum der überprüften Quellcodes umfasste kritische Kerninfrastrukturen, komplexe Netzwerksysteme, interne Plattformwerkzeuge sowie genutzte Open-Source-Softwarekomponenten.

Bisherige cyber-spezifische Sprachmodelle scheiterten in der Praxis häufig daran, abstrakte logische Fehler über weit verzweigte Verzeichnisse hinweg miteinander in Verbindung zu bringen. Sie lieferten meist isolierte Analysen einzelner Zeilen und produzierten eine hohe Anzahl an Falschmeldungen (False Positives), die von menschlichen Analysten mit erheblichem Zeitaufwand manuell aussortiert werden mussten. Die Erprobung von Mythos zeigte jedoch eine strukturelle Veränderung in der Verarbeitungsqualität und der strategischen Kontextanalyse.

Kombination harmloser Software-Fehler zu schweren Exploits

Der signifikanteste Unterschied zu älteren Generationen von KI-Modellen liegt in der Fähigkeit zur sogenannten Schwachstellen-Verkettung (Vulnerability Chaining). Gemäß den Beobachtungen von Bourzikas ist Mythos Preview in der Lage, mehrere voneinander unabhängige Programmierfehler mit geringer Priorität (Low-Severity Bugs) komplett autonom zu identifizieren. Diese Fehler stellen für sich genommen keine akute Bedrohung dar und verbleiben in der industriellen Praxis oft monatelang ungelöst im Backlog. Das System kombiniert diese scheinbar harmlosen Bausteine im Anschluss logisch zu einer einzigen, hochgradig gravierenden Angriffskette.

Anzeige

Ein entscheidender Faktor für die Praxis ist, dass Mythos nicht nur theoretische Schwachstellen meldet, sondern direkt einen funktionsfähigen Angriffs-Code – einen sogenannten Proof of Concept (PoC) – generiert. Bourzikas dokumentierte, dass die vom Modell dargelegte Argumentationskette und die methodischen Zwischenschritte bei der Code-Generierung der präzisen Arbeitsweise eines erfahrenen, menschlichen Sicherheitsforschers (Senior Researcher) gleichen und nicht den starren Mustern eines automatisierten Scanners entsprechen. Für IT-Sicherheitsabteilungen verkürzt dies zwar die Verifizierungszeit realer Bedrohungen, verringert jedoch zeitgleich das Zeitfenster für Verteidiger (Time to Prepare), um Schutzmaßnahmen vor potenziellen KI-generierten Angriffen der Gegenseite zu etablieren.

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

Umgehung von Sicherheitsfiltern durch einfache Prompt-Anpassungen

Trotz der fortgeschrittenen Analysefähigkeiten deckte die Untersuchung von Cloudflare erhebliche Defizite in den internen Sicherheitsleitplanken (Guardrails) des Anthropic-Modells auf. Das System reagierte im Testlauf inkonsistent und ließ sich durch gezielte Modifikationen der Eingabeaufforderungen (Jailbreaking) manipulieren.

In einem dokumentierten Fall weigerte sich das Modell zunächst strikt, eine Sicherheitsanalyse an einem bereitgestellten Code-Snippet durchzuführen, da dies gegen die Richtlinien zur Vermeidung von Schadcode-Entwicklung verstoße. Als die Forscher von Cloudflare jedoch lediglich den versteckten Konfigurationsordner .git aus dem Verzeichnis löschten, ohne ein einziges Zeichen am eigentlichen Quellcode zu verändern, akzeptierte die KI dieselbe Anfrage im zweiten Versuch problemlos und führte die tiefe Schwachstellenanalyse durch. Aufgrund der probabilistischen Natur großer Sprachmodelle variieren die Ergebnisse zudem stark zwischen identischen Testläufen. Diese Inkonstanz macht das Modell in seiner jetzigen Form laut Cloudflare ungeeignet für den unkontrollierten Massenmarkt.

Menschliche Forscher behalten die Oberhand bei komplexen Systemanalysen

Die Tests zeigten zeitgleich die Grenzen der autonomen Handlungsfähigkeit des KI-Modells auf. Bei tiefgehenden, großflächigen Untersuchungen über extrem umfangreiche Codebasen hinweg sind menschliche Sicherheitsanalysten der Maschine weiterhin deutlich überlegen.

Menschliche Experten besitzen die kognitive Fähigkeit, sich über lange Zeiträume hinweg fokussiert auf einen spezifischen Angriffsvektor, eine komplexe Anwendungsfunktion oder eine bestimmte Schwachstellenklasse wie komplexe Injektionen zu konzentrieren und logische Übergänge an Sicherheitsgrenzen im Gesamtsystem manuell zu rekonstruieren. Bei reinen Freitext-Suchaufträgen über riesige Repositories neigen KI-Modelle nach wie vor dazu, den Kontextbereich zu überlasten, wodurch die Durchsatzrate kollabiert. Cloudflare bewertet Mythos daher im aktuellen Stadium nicht als vollwertigen, autonomen Sicherheitsanalysten, sondern als hocheffizientes Assistenzwerkzeug (Copilot) für menschliche Experten, die dem System bereits konkrete Anhaltspunkte oder Teilbereiche vorgeben.

Das globale Kontrollprogramm Project Glasswing

Der kontrollierte Testlauf ist Teil einer globalen Sicherheitsstrategie von Anthropic. Das Unternehmen hatte das Modell im April 2026 angekündigt, eine allgemeine Freigabe jedoch explizit verweigert, da das System in internen Tests in der Lage war, Zero-Day-Schwachstellen in gängigen Betriebssystemen und Browsern autonom auszusetzen. Unter der Bezeichnung „Project Glasswing“ gewährt Anthropic stattdessen einer ausgewählten Gruppe von rund 40 globalen Partnerorganisationen, darunter Infrastrukturbetreiber wie Cloudflare, AWS und Microsoft sowie internationale Großbanken, exklusiven Zugriff.

Dieses Vorgehen soll es Verteidigern ermöglichen, kritische Software-Infrastrukturen weltweit präventiv abzusichern und Sicherheitslücken zu schließen, bevor vergleichbar mächtige cyber-spezifische KI-Modelle auf dem unregulierten Schwarzmarkt für kriminelle Akteure frei verfügbar werden. Die Debatte um die Offenlegung von Erkenntnissen aus dem Project Glasswing hat sich zuletzt intensiviert, da internationale Finanz- und Sicherheitsbehörden wie das Financial Stability Board (FSB) eine stärkere Koordinierung einfordern, um globale Systemstabilitäten zu gewährleisten.

Autorenbild Lisa Löw

Lisa

Löw

Junior Online-Redakteurin

IT-Verlag

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.