E-Mail-Postfach vernichtet

OpenClaw durchgedreht: Meta-Forscherin sprintet zum Rechner

24. Februar, 2026
14:08

Bildquelle: Robert Way/Shutterstock.com

Eine Meta-Sicherheitsforscherin musste buchstäblich zu ihrem Rechner sprinten, nachdem ihr OpenClaw-KI-Agent begonnen hatte, ihr gesamtes Postfach zu löschen.

Summer Yue wollte eigentlich nur Ordnung in ihr überfülltes Postfach bringen. Die Sicherheitsforscherin bei Meta übergab die Aufgabe einem OpenClaw-Agenten mit dem Auftrag, Lösch- und Archivierungsvorschläge zu erarbeiten. Statt Vorschläge zu unterbreiten, begann der Agent jedoch sofort mit dem Löschen sämtlicher E-Mails, ignorierte alle Stoppbefehle vom Smartphone und ließ sich nicht aufhalten. „Ich hatte zu meinem Mac Mini RENNEN müssen, als würde ich eine Bombe entschärfen“, schrieb Yue anschließend auf X.

OpenClaw ist ein frei verfügbares, selbst gehostetes KI-Agenten-System, das nicht nur chatten, sondern auf Rechnern tatsächlich Aufgaben ausführen kann. Das Tool hatte in den letzten Wochen einen regelrechten Hype verursacht.

Das Problem mit dem Kontextfenster

Yue hatte den Agenten zuvor wochenlang mit einem kleineren Testpostfach erprobt, gute Erfahrungen gemacht und ihm schließlich das echte Postfach anvertraut. Dieser Vertrauensvorschuss erwies sich als Fehler. Yue vermutet, dass das deutlich größere Datenvolumen ein sogenanntes Context Window Compaction ausgelöst hat: Wenn der Kontextspeicher eines Sprachmodells an seine Grenzen stößt, beginnt es, ältere Inhalte zu komprimieren. Dabei können Anweisungen verloren gehen, die der Nutzer für unverzichtbar hält. Ihr letzter Stoppbefehl dürfte schlicht wegkomprimiert worden sein, während der Agent die ursprüngliche Aufgabe munter weiterverfolgte.

Das ist keine triviale Randnotiz. Es bedeutet, dass ein Agent unter realen Bedingungen fundamental anders reagieren kann als in der Testphase, selbst wenn er sich in der Testphase über lange Zeit verlässlich verhalten hat.

Nothing humbles you like telling your OpenClaw “confirm before acting” and watching it speedrun deleting your inbox. I couldn’t stop it from my phone. I had to RUN to my Mac mini like I was defusing a bomb. pic.twitter.com/XAxyRwPJ5R
— Summer Yue (@summeryue0) February 23, 2026

Prompts als Sicherheitsmechanismus taugen wenig

Was der Vorfall besonders deutlich macht: Sprachmodelle lassen sich nicht zuverlässig durch Prompts stoppen. Wer einem Agenten schreibt „tue das nicht“ oder „hör auf“, darf nicht davon ausgehen, dass diese Anweisung unter allen Umständen befolgt wird. Modelle können Anweisungen fehlinterpretieren, priorisieren oder unter bestimmten Bedingungen ganz ignorieren. Bemerkenswert ist auch der Kontext, in dem das alles passiert: Yue ist keine Hobbyistin, die gedankenlos ein KI-Tool ausprobiert. Sie forscht hauptberuflich zur Sicherheit von KI-Systemen bei Meta. „Rookie Mistake tbh“, räumte sie selbst auf Nachfrage ein.

Experten wie Udo Schneider, Governance, Risk & Compliance Lead Europe bei Trend Micro, warnten nicht ohne Grund davor, dass sich ein Enterprise-Alptraum anbahne.

KI-Agent OpenClaw

Lars

Becker

Stellvertretender Chefredakteur

IT Verlag GmbH

OpenClaw durchgedreht: Meta-Forscherin sprintet zum Rechner

Das Problem mit dem Kontextfenster

Prompts als Sicherheitsmechanismus taugen wenig

Lars

Becker

Weitere Artikel

Meistgelesene Artikel

US-Prozessoren hebeln europäische Cloud-Souveränität aus

Spotify down: Songs lassen sich nicht mehr laden

Turbo für lokale KI: Google beschleunigt Gemma 4 um das Dreifache

Sicherheits-Gau bei Anthropic: Claude-Extension in drei Stunden erneut gehackt

Checkliste für Spam-Anrufe: Diese Nummern sind Abzocke

IT Verlag

Wichtige Links

Kontakt