Der Aufstieg des „Vibe Codings” bringt neue Risiken mit sich. Anthropic antwortet mit einem automatisierten Reviewer, der Fehler abfangen soll, bevor sie in die Codebasis gelangen.
Anthropic hat für sein KI-gestütztes Entwicklerwerkzeug Claude Code eine neue Funktion namens Code Review angekündigt. Das System schickt bei jedem Pull Request (PR) automatisch ein Team aus KI-Agenten los, das den Code parallel auf Fehler untersucht, gefundene Probleme gegenseitig verifiziert und nach Schweregrad sortiert. Das Ergebnis erscheint als strukturierter Kommentar direkt im PR, bestehend aus einem zusammenfassenden Überblick sowie Inline-Kommentaren für konkrete Fundstellen.
Hintergrund ist ein hausgemachtes Problem: Laut Anthropic ist die Code-Ausgabe pro Entwickler im letzten Jahr um 200 Prozent gestiegen. “Code-Review ist zum Flaschenhals geworden”, schreibt das Unternehmen, und viele PRs bekämen nur noch einen flüchtigen Blick. Das System ist intern bereits seit Monaten im Einsatz. Der Anteil von Pull Requests, die inhaltlich relevante Review-Kommentare erhalten, sei dadurch von 16 auf 54 Prozent gestiegen. Genehmigen kann das System PRs allerdings nicht, das bleibt Aufgabe menschlicher Reviewer.
Mehrstufiger Prozess mit skalierender Tiefe
Die Agenten arbeiten parallel: Sie suchen nach Bugs, prüfen Treffer auf False Positives und priorisieren nach Kritikalität. Größere oder komplexere Änderungen bekommen dabei mehr Agenten zugewiesen, kleinere Diffs eine schlankere Prüfung. Anthropic gibt die durchschnittliche Review-Dauer mit rund 20 Minuten an. Ein Diff (kurz für Difference) ist die Darstellung der Unterschiede zwischen zwei Versionen einer Datei. Es zeigt zeilengenau, was hinzugefügt, geändert oder gelöscht wurde, üblicherweise mit grün markierten neuen Zeilen und rot markierten entfernten Zeilen. Entwickler schauen sich den Diff eines Pull Requests an, um schnell zu sehen, was sich konkret verändert hat, ohne die gesamte Datei lesen zu müssen.
Interne Zahlen zeigen laut Unternehmensangaben: Bei großen PRs mit mehr als 1.000 geänderten Zeilen fanden die Agenten in 84 Prozent der Fälle Auffälligkeiten, im Schnitt 7,5 Probleme pro PR. Bei kleinen PRs unter 50 Zeilen waren es 31 Prozent der Fälle mit durchschnittlich 0,5 Problemen. Weniger als ein Prozent der gefundenen Probleme wurden von Entwicklern als falsch markiert.
Authentifizierungsfehler fast übersehen
Als Beispiel nennt Anthropic eine einzeilige Änderung an einem Produktivsystem, die beim kurzen Überfliegen des Diffs unauffällig wirkte. Code Review stufte sie als kritisch ein: Die Änderung hätte die Authentifizierung des Dienstes gebrochen. Der Fehler wurde vor dem Merge behoben. Der beteiligte Entwickler kommentierte danach, er “hätte ihn selbst nicht gefunden.”
Ein externer Frühadopter berichtet von einem ähnlichen Fund: Bei einem ZFS-Verschlüsselungs-Refactor im Open-Source-Middleware-Projekt TrueNAS entdeckte das System einen bereits vorhandenen Bug in angrenzendem Code. Ein Typfehler räumte bei jedem Sync-Vorgang den Verschlüsselungs-Key-Cache leer, ohne dass es zu einer Fehlermeldung kam. Anthropic beschreibt es als “die Art von Problem, nach der ein menschlicher Reviewer beim Durchsehen der Änderungen nicht aktiv suchen würde.”
Kosten und Kontrolle
Code Review ist teurer als leichtgewichtigere Lösungen wie Anthropics bestehende Claude Code GitHub Action, die weiterhin als Open Source verfügbar bleibt. Die Abrechnung erfolgt nach Token-Verbrauch; typische Reviews kosten laut Anthropic zwischen 15 und 25 US-Dollar, abhängig von Größe und Komplexität des PRs.
Administratoren können monatliche Ausgabenobergrenzen für die gesamte Organisation festlegen, Reviews auf bestimmte Repositories beschränken und den Verbrauch über ein Analytics-Dashboard einsehen.
Verfügbarkeit
Code Review ist ab sofort als Research Preview in der Betaphase für Team- und Enterprise-Pläne verfügbar. Admins aktivieren die Funktion in den Claude-Code-Einstellungen, installieren die GitHub App und wählen Repositories aus. Für Entwickler läuft die Prüfung danach automatisch bei jedem neuen PR, ohne weitere Konfiguration.