Wenn autonome KI-Agenten selbstständig Entscheidungen treffen, versagt das klassische IT-Monitoring. Nur moderne Observability sichert künftig die Kontrolle über unvorhersehbare Betriebsrisiken.
In kritischen Produktionsumgebungen gibt es häufig den Moment, in dem das Dashboard rote Zahlen zeigt und das Problem tief im Stack versteckt liegt. Früher war das ein Problem der Tooling-Reife. Heute ist es ein strukturelles Problem, weil die Systeme, die beobachtet werden müssen, zunehmend selbst Entscheidungen treffen.
KI-Agenten etwa übernehmen operative Aufgaben, wie das Schreiben von Code, das Triggern von Deployments, sie reagieren auf Anomalien oder steuern Automatisierungen. Damit verschiebt sich auch die Aufgabe von Observability-Plattformen. Es geht immer mehr darum, warum ein Agent an einem bestimmten Punkt eine bestimmte Entscheidung getroffen hat. Und ob man rechtzeitig eingreifen kann, wenn diese Entscheidung falsch ist.
Observability war lange reaktiv – das reicht nicht mehr
Das klassische Monitoring funktionierte lange so: bei einem Fehler wurde ein Alarm ausgelöst und Menschen haben sich dann um das Problem gekümmert. In statischen und eher simpel aufgebauten Systemen hat das funktioniert, bei agentenbasierten Workflows tut es das allerdings weniger. Die Ursache dafür ist struktureller Natur: Bei traditioneller Software ist der Control Flow im Code definiert und damit vorhersehbar. Bei LLM-gesteuerten Systemen entscheidet das Modell selbst, welchen Pfad es nimmt. Ein Agent, der einen Pull Request reviewed, kann theoretisch ohne menschliche Kontrolle auf externe Datenquellen zugreifen, Code-Änderungen vorschlagen und Folgeaktionen auslösen. Was bei jedem einzelnen Schritt passiert, lässt sich mit klassischen Fehler- und Ressourcenmetriken nicht vollständig erfassen.
Datadogs aktueller State of AI Engineering-Report zeigt, dass fast jede zwanzigste KI-Anfrage in Produktionsumgebungen scheitert und rund 60 Prozent dieser Fehler auf Kapazitätsengpässe zurückgehen, nicht auf fehlerhafte Modelle. Gleichzeitig betreiben bereits 69 Prozent der Unternehmen drei oder mehr KI-Modelle parallel. Die operative Komplexität ist real und sie wächst weiter.
Von AIOps zu autonomen Agenten: Was der Übergang wirklich bedeutet
Bei AIOps hilft KI, Vorfälle schneller zu erkennen und zu korrelieren. Schwierig wird der nächste, weitergehenden Entwicklungsschritt, bei dem autonome SRE-Agenten nicht nur analysieren, sondern handeln sollen. Die Aufgaben, die sie übernehmen umfassen: Incidents eingrenzen, Maßnahmen einleiten, Systeme stabilisieren. Innerhalb definierter Leitplanken, natürlich – aber eben ohne permanente menschliche Bestätigung.
Die eigentliche Frage ist, unter welchen Bedingungen das funktionieren kann. Drei Anforderungen sind dabei nicht verhandelbar:
- Vollständiges Tracing über den gesamten Ausführungspfad: Wenn ein Agent eine Entscheidung trifft, muss jeder Schritt in Echtzeit nachvollziehbar sein. Die getroffenen Entscheidungen sollten sichtbar und der Intent klar abgegrenzt sein.
- Klare Kostentransparenz: Agenten, die kontinuierlich laufen und Tokens verbrauchen, erzeugen laufende Kosten. Teams haben dabei oft keinen direkten Überblick darüber, was diese Kosten im Verhältnis zum Output rechtfertigt. Wer das nicht zentral sichtbar macht, verliert schnell die Kontrolle über sein KI-Budget.
- Definierte Grenzen, die auch eingehalten werden: Die Herausforderung liegt darin, diese Grenzen so zu kalibrieren, dass Agenten wirklich nützlich sind und nicht bei jeder nicht-trivialen Entscheidung auf menschliche Freigabe warten müssen. Gleichzeitig müssen definierte Grenzen überprüfbar bleiben und geeignet sein, kritisches Verhalten oder zweifelhafte Aktionen zu unterbinden.
Ob der Schritt von Assistenz zu echter Automatisierung belastbar ist, entscheidet sich meist daran, wie gut die Plattform drumherum funktioniert.
KI-Sicherheit: Eine neue Angriffsfläche, die viele noch unterschätzen
Mit mehr Autonomie kommt auch mehr Angriffsfläche. KI-Agenten mit Zugriff auf Produktionssysteme, Datenbanken und externe APIs sind ein attraktives Ziel für Hacker. Klassische Security-Konzepte greifen hier strukturell zu kurz.
Prompt Injection ist das augenfälligste Beispiel: Ein Angreifer versteckt eine manipulierte Anweisung in einer scheinbar harmlosen Eingabe. Das kann beispielsweise in einer E-Mail, einem Dokument oder einer API-Antwort sein. Der Agent verarbeitet diese Eingabe, hält die eingebettete Anweisung für legitim und führt sie aus. Sensible Daten werden weitergeleitet und Aktionen ausgelöst, die niemand autorisiert hat.
Das Tückische an solchen Angriffen ist, dass sie stateless kaum erkennbar sind. Ein einzelner Prompt sieht unauffällig aus. Und erst wenn man das Verhalten eines Agenten über mehrere Schritte hinweg analysiert, werden die Muster sichtbar.
Dasselbe gilt für Datenabfluss. Agenten, die mit sensiblen Informationen arbeiten, müssen in Umgebungen betrieben werden, die Datensouveränität strukturell gewährleisten. Die Frage, wo Daten verarbeitet und gespeichert werden, ist für viele Unternehmen inzwischen zu einer wichtigen Compliance-Frage geworden.
Was das für die Wahl der richtigen Plattform bedeutet
Observability-Plattformen, die heute noch primär Metriken sammeln und Alerts verschicken, sind für die Welt agentischer IT-Systeme nicht ausreichend gerüstet. Was gebraucht wird, ist eine Plattform, die drei Dinge gleichzeitig leistet:
- Die vollständige Sichtbarkeit über den gesamten Agenten-Lebenszyklus, beginnend von der Anfrage über den Entscheidungspfad bis zur ausgeführten Aktion.
- Sicherheitsmechanismen, die auf Verhaltensebene ansetzen, nicht nur auf Perimeter-Ebene.
- Transparenz über Kosten und Nutzen, damit Unternehmen fundiert entscheiden können, wo Automatisierung tatsächlich Mehrwert schafft und wo nicht.
Die gute Nachricht: Die technischen Bausteine dafür existieren. Die entscheidende Arbeit liegt jetzt darin, sie konsequent einzusetzen, bevor Agenten weitreichendere Entscheidungen treffen, als die Teams, die sie betreiben, noch überblicken können.