Neuer Benchmark für KI

Databricks stellt OfficeQA vor und startet den Grounded Reasoning Cup

Databricks
Bildquelle: Tada Images /Shutterstock.com

Databricks hat mit OfficeQA einen neuen Open-Source-Benchmark vorgestellt, der die Fähigkeiten von KI-Systemen im Bereich Grounded Reasoning testet.

Im Fokus stehen dabei wirtschaftlich relevante und realitätsnahe Aufgaben, wie sie in Unternehmen auftreten. Grounded Reasoning bedeutet, dass KI-Fragen auf Basis komplexer, proprietärer Datensätze beantwortet werden müssen, die unstrukturierte Dokumente sowie Tabellen enthalten.

Anzeige

Warum ein neuer Benchmark nötig war

Bisherige Benchmarks wie GDPval, Humanity’s Last Exam oder ARC-AGI-2 decken laut Databricks nicht die Art von Aufgaben ab, die in Unternehmen wirklich relevant sind. OfficeQA wurde daher entwickelt, um genau diese Lücke zu schließen. Dabei legten die Entwickler besonderen Wert auf drei Kriterien:

  • Die Fragen sollen anspruchsvoll sein, aber kein spezielles Expertenwissen auf Hochschulniveau erfordern.
  • Jede Frage muss eine eindeutig richtige Antwort haben, die automatisch überprüfbar ist.
  • Der Benchmark soll die typischen Herausforderungen abbilden, mit denen Unternehmen täglich konfrontiert sind.

Unternehmensprobleme im Fokus

Databricks hat die Herausforderungen in drei Kernbereiche unterteilt:

  1. Dokumentenkomplexität: Unternehmen arbeiten mit großen Mengen an Scans, PDFs oder Fotos, oft mit umfangreichen Tabellen und numerischen Daten.
  2. Informationsabruf und Aggregation: Systeme müssen Daten effizient suchen, extrahieren und zusammenführen.
  3. Analytisches Denken und Präzision: Auf Basis der Dokumente müssen KI-Agenten präzise Antworten und Berechnungen liefern, da kleine Abweichungen, etwa bei Produktnummern oder Umsatzprognosen, gravierende Folgen haben können.

OfficeQA umfasst insgesamt 246 Fragen, unterteilt in leichte und schwierige Aufgaben. Leichte Fragen wurden bereits von allen getesteten Frontier-KI-Agenten korrekt beantwortet, schwierige Aufgaben führten bei mindestens einem Agenten zu Fehlern. Als Datenbasis dienen die U.S. Treasury Bulletins, ein Korpus von rund 89.000 Seiten über acht Jahrzehnte, wodurch ein besonders anspruchsvolles Testfeld für die Analyse komplexer Tabellen und die Zusammenführung vielfältiger Informationen geschaffen wird.

Anzeige
Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

Erste Ergebnisse der Tests

Databricks testete bestehende KI-Agenten wie GPT-5.1 und Claude Opus 4.5. Dabei zeigte sich: Ohne Zugriff auf die Treasury-Dokumente lagen die korrekten Antworten bei lediglich zwei Prozent. Mit dem kompletten Korpus stieg die Genauigkeit auf unter 45 Prozent insgesamt und auf weniger als 25 Prozent bei den schwierigsten Fragen.

Häufige Fehlerquellen waren unter anderem:

  • Parsing-Probleme: Komplexe Tabellen mit verschachtelten Spalten, zusammengeführten Zellen oder ungewöhnlichen Formaten führten zu falsch extrahierten Werten.
  • Mehrdeutige Antworten: Verschiedene Versionen von Finanzdokumenten können zu unterschiedlichen legitimen Werten führen, wodurch KI-Agenten oft die relevanteste Quelle übersehen.
  • Visuelles Verständnis: Einige Fragen beziehen sich auf Diagramme oder Abbildungen, die visuelles Denken erfordern und noch nicht zuverlässig von KI erfasst werden.

OfficeQA ist ein wichtiger Schritt, um KI-Agenten an wirtschaftlich relevanten, realistischen Aufgaben zu messen. Die Ergebnisse zeigen, dass trotz Fortschritten in der KI-Forschung weiterhin Lücken bestehen, insbesondere bei der Verarbeitung komplexer Dokumente, der präzisen Informationsaggregation und der visuellen Analyse. Der Benchmark ermöglicht Unternehmen und Forschenden, KI-Modelle praxisnah zu testen und weiterzuentwickeln, bevor sie in sensiblen Unternehmensprozessen eingesetzt werden.

Pauline Dornig

Pauline

Dornig

Online-Redakteurin

IT Verlag GmbH

Pauline Dornig verstärkt seit Mai 2020 das Team des IT Verlags als Online-Redakteurin. (pd)
Anzeige

Artikel zu diesem Thema

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.