Microsoft-Forscher warnen vor Automatisierung durch KI-Agenten: Top-Modelle wie GPT 5.4 korrumpieren bei Langzeitaufgaben Daten. Ein Risiko für jedes Unternehmen.
Die Vision von vollständig autonomen KI-Mitarbeitern, die komplexe Projekte über Tage hinweg fehlerfrei bearbeiten, erleidet einen herben Dämpfer. Eine aktuelle Untersuchung von Microsoft Research mit dem Titel „LLMs Corrupt Your Documents When You Delegate“ belegt, dass aktuelle Sprachmodelle bei mehrstufigen Arbeitsabläufen systematisch scheitern. Die Wissenschaftler wiesen nach, dass selbst die teuersten Frontier-Modelle wie GPT 5.4, Claude 4.6 Opus und Gemini 3.1 Pro dazu neigen, Dokumenteninhalte im Verlauf langer Interaktionsketten zu löschen oder inhaltlich zu entstellen. In einer Zeit, in der Unternehmen in die Automatisierung investieren, stellt dies ein unkalkulierbares Risiko für die Datenintegrität dar.
KI kann keine Dateien splitten und fehlerfrei zusammenführen
Große Technologiekonzerne werben derzeit aggressiv mit der Fähigkeit ihrer KI-Modelle, als digitale Co-Worker zu agieren. Anthropic verspricht mit Claude Cowork ein System, das Aufgaben autonom auf lokalen Dateien und Anwendungen ausführt. Microsoft selbst bewirbt den Copilot in Microsoft 365 als Werkzeug für komplexe, mehrstufige Recherchen über Arbeitsdaten und das Web hinweg. Die Forscher von Microsoft Research kommen jedoch zu einem gegenteiligen Schluss: Wer seine KI-Agenten ohne engmaschige Kontrolle agieren lässt, riskiert die schleichende Zerstörung seiner Arbeitsgrundlagen.
Um die Belastbarkeit der Modelle über längere Zeiträume zu prüfen, entwickelten die Forscher Philippe Laban, Tobias Schnabel und Jennifer Neville einen neuen Prüfstand namens DELEGATE-52. Dieser Benchmark simuliert realistische, mehrstufige Workflows in 52 verschiedenen Fachbereichen, darunter Softwareentwicklung, Buchhaltung, Kristallographie und Musiknotation. Im Gegensatz zu einfachen Frage-Antwort-Tests erfordert dieser Benchmark, dass die KI über 20 aufeinanderfolgende Interaktionen hinweg an einem Dokument arbeitet, es editiert, aufteilt oder wieder zusammenfügt.
Ein Beispiel aus der Untersuchung ist die Bearbeitung eines Buchhaltungs-Hauptbuchs für eine Non-Profit-Organisation. Die KI musste das Quelldokument in verschiedene Kategorien splitten und diese Dateien später wieder chronologisch zu einem fehlerfreien Gesamtdokument vereinen. Was für einen menschlichen Mitarbeiter eine Routineaufgabe darstellt, entpuppte sich für die KI-Modelle als unüberwindbare Hürde. Die Studie zeigt, dass die Fehleranfälligkeit nicht linear, sondern oft schlagartig zunimmt.
Wenn KI-Modelle zum digitalen Schredder werden
Die Ergebnisse der Untersuchung sind alarmierend. Über 20 Delegationsschritte hinweg verloren die führenden Frontier-Modelle im Durchschnitt 25 Prozent des gesamten Dokumenteninhalts. Bei weniger leistungsfähigen Modellen lag der Inhaltsverlust sogar bei durchschnittlich 50 Prozent. Dabei unterschieden sich die Fehlermuster je nach Modellklasse: Während schwächere Systeme dazu neigten, Textpassagen einfach zu löschen, produzierten die Top-Modelle eher subtile Korruptionen, bei denen Informationen inhaltlich verfälscht oder logisch inkonsistent wurden.
Besonders kritisch ist die Beobachtung, dass diese Fehler oft nicht schleichend über alle Runden verteilt auftraten. Stattdessen kam es in über 80 Prozent der Fälle zu plötzlichen, katastrophalen Einbrüchen, bei denen innerhalb einer einzigen Interaktion bis zu 30 Prozent der Dokumentenqualität verloren gingen. Die Forscher stellten fest, dass stärkere Modelle wie Gemini 3.1 Pro diese Totalausfälle lediglich in spätere Phasen der Bearbeitung verschieben können, sie aber letztlich nicht verhindern.
KI-Agenten schneiden sechs Prozent schlechter ab als ohne Hilfsmittel
Ein Kernelement moderner KI-Strategien ist die Nutzung von Agenten, die über zusätzliche Werkzeuge (Tools) verfügen, um Dateien zu lesen, zu schreiben oder Code auszuführen. Die allgemeine Erwartung ist, dass dieser agentic harness die Präzision erhöht. Die Microsoft-Studie liefert hier jedoch ein kontraintuitives Ergebnis: Die untersuchten Modelle GPT-5.4, 5.2, 5.1 und 4.1 schnitten mit dem Einsatz von Werkzeugen im Durchschnitt um sechs Prozent schlechter ab als ohne diese Hilfsmittel.
Die zusätzliche Komplexität, die durch die Interaktion mit externen Werkzeugen entsteht, scheint die Modelle eher zu überfordern als zu unterstützen. Dies wirft ein Schlaglicht auf das Risiko von KI-Agenten, die ohne menschliche Aufsicht tiefgreifende Änderungen an Dateisystemen vornehmen. Die Forscher betonen, dass eine bloße Erweiterung der KI um technische Schnittstellen nicht ausreicht, um die mangelnde Konsistenz bei Langzeitaufgaben auszugleichen.
Python als einsame Ausnahme im Chaos
Die Wissenschaftler setzten die Messlatte für die Einsatzreife (Ready-Status) bei einer Genauigkeit von 98 Prozent oder höher nach 20 Interaktionen an. Das ernüchternde Resultat: Nur ein einziger Bereich erfüllte dieses Kriterium zuverlässig: die Programmierung in Python. In allen anderen 51 Domänen fielen die Modelle durch. Selbst das leistungsfähigste Modell im Test, Google Gemini 3.1 Pro, war nur in 11 von 52 Bereichen überhaupt in der Nähe der Einsatzreife.
Besonders schlecht schnitten die KI-Systeme bei Aufgaben ab, die auf natürlicher Sprache basieren. Während logisch strukturierte Programmieraufgaben noch am besten bewältigt wurden, führte die Bearbeitung von Fließtexten, Berichten oder Tabellenkalkulationen in 80 Prozent der Fälle zu einer schweren Korruption der Dokumente. Dies unterstreicht die Notwendigkeit, KI-Systeme derzeit primär als Assistenzwerkzeuge für isolierte Einzelschritte und nicht als autonome Projektleiter einzusetzen.
Menschliche Überwachung als unverzichtbares Korrektiv
Trotz der deutlichen Kritik weist die Studie auch auf Fortschritte hin. Die GPT-Modellfamilie von OpenAI konnte ihren Score im DELEGATE-52 Benchmark innerhalb von 16 Monaten von 14,7 Prozent auf 71,5 Prozent steigern. Die Richtung stimmt also, doch das Ziel einer verlässlichen Delegation ist noch nicht erreicht. Für Unternehmen bedeutet dies eine schwierige Gratwanderung: Laut Deloitte fließen aktuell rund 36 Prozent der Digitalbudgets in KI-Automatisierung, während die technische Basis für autonome Langzeitprojekte noch instabil ist.
Die Microsoft-Wissenschaftler schließen ihre Arbeit mit der dringenden Empfehlung ab, KI-Systeme niemals ohne engmaschige menschliche Überwachung agieren zu lassen. Ein Mitarbeiter, der bei einem Projekt ein Viertel der Daten korrumpieren oder löschen würde, würde umgehend entlassen. Firmen sollten daher prüfen, ob sie KI-Systeme mit derselben Strenge bewerten wie menschliches Personal. Solange die Modelle ihre Ergebnisse nicht über lange Horizonte stabil halten können, bleibt die autonome Delegation ein riskantes Experiment.