Künstliche Intelligenz

IBM macht Dokumente schlau: Granite-Docling verwandelt PDFs in KI-Futter

Bücher und AI

IBMs neues Open-Source-Modell Granite-Docling-258M revolutioniert die Dokumentenverarbeitung: Tabellen, Formeln und Layouts bleiben perfekt erhalten – bei nur 258 Millionen Parametern.

Winzling mit Riesenkraft

IBM hat mit Granite-Docling-258M ein beeindruckendes Vision-Language-Modell (VLM) vorgestellt, das trotz seiner kompakten Größe von nur 258 Millionen Parametern mit deutlich größeren Systemen mithalten kann. Das Open-Source-Modell steht unter Apache 2.0-Lizenz auf Hugging Face zur Verfügung und wurde speziell für die präzise Dokumentenkonvertierung entwickelt.

Anzeige

Anders als herkömmliche OCR-Ansätze, die große Allzweckmodelle für die Texterkennung anpassen, wurde Granite-Docling von Grund auf für diese Aufgabe konzipiert. Das Ergebnis: extrem kosteneffiziente Dokumentenverarbeitung ohne Qualitätsverluste.

Mehr als nur Text erkennen

Die wahre Stärke von Granite-Docling liegt in seiner Fähigkeit, komplexe Dokumentstrukturen vollständig zu erhalten. Das Modell erfasst nicht nur Text, sondern auch mathematische Formeln, Code-Blöcke, Tabellenstrukturen und das ursprüngliche Layout. Während konventionelle OCR-Modelle Dokumente direkt in Markdown umwandeln und dabei die Verbindung zum ursprünglichen Inhalt verlieren, bewahrt Granite-Docling alle strukturellen Elemente.

Diese Eigenschaft macht das Modell besonders wertvoll für Retrieval Augmented Generation (RAG)-Anwendungen, bei denen die Struktur der Originaldokumente für die Qualität der KI-Antworten entscheidend ist.

Anzeige
Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

DocTags: Die Geheimwaffe

Das Herzstück von Granite-Docling bildet DocTags, ein von IBM Research entwickeltes universelles Markup-Format. DocTags erfasst alle Seitenelemente – Diagramme, Tabellen, Formulare, Code, Gleichungen, Fußnoten und Bildunterschriften – sowie deren kontextuelle Beziehungen zueinander.

Herkömmliche Markup-Sprachen wie HTML oder Markdown sind für Bild-zu-Text-Aufgaben nicht optimal geeignet und haben ein begrenztes Vokabular für die spezifischen Attribute von PDFs und Präsentationen. DocTags hingegen definiert strukturierte, eindeutige Tags, die textlichen Inhalt von der Dokumentstruktur trennen. Dies reduziert sowohl Verwirrung als auch die Token-Anzahl erheblich.

Open-Source Granite-Docling from IBM: The OCR That Understands Docs

Weltweite Verfügbarkeit geplant

Während der Vorgänger SmolDocling-256-preview nur englischsprachige Dokumente optimal verarbeiten konnte, erweitert Granite-Docling seine Fähigkeiten experimentell auf weitere Sprachen. Arabisch, Chinesisch und Japanisch stehen bereits auf der Roadmap, um das Modell für mehr der weltweit meistgesprochenen Sprachen nutzbar zu machen.

Diese mehrsprachigen Funktionen befinden sich noch in einem frühen, experimentellen Stadium, stellen aber einen wichtigen Schritt zur globalen Nutzbarkeit dar.

Teamwork mit der Docling-Bibliothek

Granite-Docling ersetzt nicht die bestehende Docling-Bibliothek, sondern ergänzt sie optimal. Die Docling-Bibliothek, die im Juli 2024 als Open-Source-Projekt veröffentlicht wurde und bereits über 10.000 GitHub-Sterne sammelte, bietet eine vollständig anpassbare Software-Schicht für den Aufbau von Ensemble-Pipelines aus spezialisierten Modellen. Granite-Docling kann als Teil einer größeren VLM-Pipeline in Docling fungieren und mehrere Einzelzweckmodelle durch ein kompaktes VLM ersetzen.

Der einstufige Konvertierungsprozess von Granite-Docling reduziert theoretisch auch die Fehlerakkumulation. Während eine falsch lokalisierte Tabelle in einer mehrstufigen Pipeline die Inhaltsextraktion in späteren Phasen beeinträchtigen könnte, reproduziert Granite-Docling Tabellen korrekt, selbst wenn sie an der falschen Position stehen.

Blick in die Zukunft

IBM Research plant bereits größere Granite-Docling-Modelle mit etwa 512 Millionen und 900 Millionen Parametern. Um Geschwindigkeit und Hardware-Flexibilität zu gewährleisten, sollen alle zukünftigen Modelle unter einer Milliarde Parameter bleiben.

Weitere geplante Entwicklungen umfassen die Integration von DocTags in IBM watsonx.ai und die Aufnahme von DocTags-Begriffen in das Granite-Tokenizer-Vokabular. Dies wird die nahtlose Integration von mit Granite-Docling verarbeiteten Dokumentdaten in größere Workflows ermöglichen.

Silvia Parthier

Silvia

Parthier

IT Verlag für Informationstechnik GmbH

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.