E-Mail-Postfach vernichtet

OpenClaw durchgedreht: Meta-Forscherin sprintet zum Rechner

OpenClaw
Bildquelle: Robert Way/Shutterstock.com

Eine Meta-Sicherheitsforscherin musste buchstäblich zu ihrem Rechner sprinten, nachdem ihr OpenClaw-KI-Agent begonnen hatte, ihr gesamtes Postfach zu löschen.

Summer Yue wollte eigentlich nur Ordnung in ihr überfülltes Postfach bringen. Die Sicherheitsforscherin bei Meta übergab die Aufgabe einem OpenClaw-Agenten mit dem Auftrag, Lösch- und Archivierungsvorschläge zu erarbeiten. Statt Vorschläge zu unterbreiten, begann der Agent jedoch sofort mit dem Löschen sämtlicher E-Mails, ignorierte alle Stoppbefehle vom Smartphone und ließ sich nicht aufhalten. „Ich hatte zu meinem Mac Mini RENNEN müssen, als würde ich eine Bombe entschärfen”, schrieb Yue anschließend auf X.

Anzeige

OpenClaw ist ein frei verfügbares, selbst gehostetes KI-Agenten-System, das nicht nur chatten, sondern auf Rechnern tatsächlich Aufgaben ausführen kann. Das Tool hatte in den letzten Wochen einen regelrechten Hype verursacht.

Das Problem mit dem Kontextfenster

Yue hatte den Agenten zuvor wochenlang mit einem kleineren Testpostfach erprobt, gute Erfahrungen gemacht und ihm schließlich das echte Postfach anvertraut. Dieser Vertrauensvorschuss erwies sich als Fehler. Yue vermutet, dass das deutlich größere Datenvolumen ein sogenanntes Context Window Compaction ausgelöst hat: Wenn der Kontextspeicher eines Sprachmodells an seine Grenzen stößt, beginnt es, ältere Inhalte zu komprimieren. Dabei können Anweisungen verloren gehen, die der Nutzer für unverzichtbar hält. Ihr letzter Stoppbefehl dürfte schlicht wegkomprimiert worden sein, während der Agent die ursprüngliche Aufgabe munter weiterverfolgte.

Das ist keine triviale Randnotiz. Es bedeutet, dass ein Agent unter realen Bedingungen fundamental anders reagieren kann als in der Testphase, selbst wenn er sich in der Testphase über lange Zeit verlässlich verhalten hat.

Anzeige


Prompts als Sicherheitsmechanismus taugen wenig

Was der Vorfall besonders deutlich macht: Sprachmodelle lassen sich nicht zuverlässig durch Prompts stoppen. Wer einem Agenten schreibt „tue das nicht” oder „hör auf”, darf nicht davon ausgehen, dass diese Anweisung unter allen Umständen befolgt wird. Modelle können Anweisungen fehlinterpretieren, priorisieren oder unter bestimmten Bedingungen ganz ignorieren. Bemerkenswert ist auch der Kontext, in dem das alles passiert: Yue ist keine Hobbyistin, die gedankenlos ein KI-Tool ausprobiert. Sie forscht hauptberuflich zur Sicherheit von KI-Systemen bei Meta. „Rookie Mistake tbh”, räumte sie selbst auf Nachfrage ein.

Experten wie Udo Schneider, Governance, Risk & Compliance Lead Europe bei Trend Micro, warnten nicht ohne Grund davor, dass sich ein Enterprise-Alptraum anbahne.

Lars

Becker

Stellvertretender Chefredakteur

IT Verlag GmbH

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.