IBMs neues Open-Source-Modell Granite-Docling-258M revolutioniert die Dokumentenverarbeitung: Tabellen, Formeln und Layouts bleiben perfekt erhalten – bei nur 258 Millionen Parametern.
Winzling mit Riesenkraft
IBM hat mit Granite-Docling-258M ein beeindruckendes Vision-Language-Modell (VLM) vorgestellt, das trotz seiner kompakten Größe von nur 258 Millionen Parametern mit deutlich größeren Systemen mithalten kann. Das Open-Source-Modell steht unter Apache 2.0-Lizenz auf Hugging Face zur Verfügung und wurde speziell für die präzise Dokumentenkonvertierung entwickelt.
Anders als herkömmliche OCR-Ansätze, die große Allzweckmodelle für die Texterkennung anpassen, wurde Granite-Docling von Grund auf für diese Aufgabe konzipiert. Das Ergebnis: extrem kosteneffiziente Dokumentenverarbeitung ohne Qualitätsverluste.
Mehr als nur Text erkennen
Die wahre Stärke von Granite-Docling liegt in seiner Fähigkeit, komplexe Dokumentstrukturen vollständig zu erhalten. Das Modell erfasst nicht nur Text, sondern auch mathematische Formeln, Code-Blöcke, Tabellenstrukturen und das ursprüngliche Layout. Während konventionelle OCR-Modelle Dokumente direkt in Markdown umwandeln und dabei die Verbindung zum ursprünglichen Inhalt verlieren, bewahrt Granite-Docling alle strukturellen Elemente.
Diese Eigenschaft macht das Modell besonders wertvoll für Retrieval Augmented Generation (RAG)-Anwendungen, bei denen die Struktur der Originaldokumente für die Qualität der KI-Antworten entscheidend ist.
DocTags: Die Geheimwaffe
Das Herzstück von Granite-Docling bildet DocTags, ein von IBM Research entwickeltes universelles Markup-Format. DocTags erfasst alle Seitenelemente – Diagramme, Tabellen, Formulare, Code, Gleichungen, Fußnoten und Bildunterschriften – sowie deren kontextuelle Beziehungen zueinander.
Herkömmliche Markup-Sprachen wie HTML oder Markdown sind für Bild-zu-Text-Aufgaben nicht optimal geeignet und haben ein begrenztes Vokabular für die spezifischen Attribute von PDFs und Präsentationen. DocTags hingegen definiert strukturierte, eindeutige Tags, die textlichen Inhalt von der Dokumentstruktur trennen. Dies reduziert sowohl Verwirrung als auch die Token-Anzahl erheblich.
Weltweite Verfügbarkeit geplant
Während der Vorgänger SmolDocling-256-preview nur englischsprachige Dokumente optimal verarbeiten konnte, erweitert Granite-Docling seine Fähigkeiten experimentell auf weitere Sprachen. Arabisch, Chinesisch und Japanisch stehen bereits auf der Roadmap, um das Modell für mehr der weltweit meistgesprochenen Sprachen nutzbar zu machen.
Diese mehrsprachigen Funktionen befinden sich noch in einem frühen, experimentellen Stadium, stellen aber einen wichtigen Schritt zur globalen Nutzbarkeit dar.
Teamwork mit der Docling-Bibliothek
Granite-Docling ersetzt nicht die bestehende Docling-Bibliothek, sondern ergänzt sie optimal. Die Docling-Bibliothek, die im Juli 2024 als Open-Source-Projekt veröffentlicht wurde und bereits über 10.000 GitHub-Sterne sammelte, bietet eine vollständig anpassbare Software-Schicht für den Aufbau von Ensemble-Pipelines aus spezialisierten Modellen. Granite-Docling kann als Teil einer größeren VLM-Pipeline in Docling fungieren und mehrere Einzelzweckmodelle durch ein kompaktes VLM ersetzen.
Der einstufige Konvertierungsprozess von Granite-Docling reduziert theoretisch auch die Fehlerakkumulation. Während eine falsch lokalisierte Tabelle in einer mehrstufigen Pipeline die Inhaltsextraktion in späteren Phasen beeinträchtigen könnte, reproduziert Granite-Docling Tabellen korrekt, selbst wenn sie an der falschen Position stehen.
Blick in die Zukunft
IBM Research plant bereits größere Granite-Docling-Modelle mit etwa 512 Millionen und 900 Millionen Parametern. Um Geschwindigkeit und Hardware-Flexibilität zu gewährleisten, sollen alle zukünftigen Modelle unter einer Milliarde Parameter bleiben.
Weitere geplante Entwicklungen umfassen die Integration von DocTags in IBM watsonx.ai und die Aufnahme von DocTags-Begriffen in das Granite-Tokenizer-Vokabular. Dies wird die nahtlose Integration von mit Granite-Docling verarbeiteten Dokumentdaten in größere Workflows ermöglichen.