Vorhersage zukünftiger Tokens beschleunigt Gemma

Turbo für lokale KI: Google beschleunigt Gemma 4 um das Dreifache

Google Gemma
Bildquelle. Google

Google Gemma 4 erhält durch Multi-Token Prediction (MTP) einen Speed-Boost. Lokale KI-Modelle laufen ohne Qualitätsverlust bis zu 3x schneller.

Google hat die neuen Open-Source-Modelle der Gemma-4-Serie veröffentlicht. Nun folgt ein technologisches Update, das die Leistungsfähigkeit der lokalen Künstlichen Intelligenz (Edge AI) signifikant steigert. Durch die Einführung von sogenannten „Multi-Token Prediction“ (MTP) Draftern für Gemma gelingt es dem Unternehmen, die Generierungsgeschwindigkeit der Modelle auf Endgeräten enorm zu erhöhen. Laut offiziellen Angaben erreichen die optimierten Modelle bis zu dreimal höhere Geschwindigkeiten im Vergleich zur herkömmlichen Token-Generierung, ohne dabei Einbußen bei der Ausgabequalität hinnehmen zu müssen.

Anzeige

Multi-Token Prediction als Effizienz-Hebel

Klassische Large Language Models (LLMs) wie Gemma oder Gemini erzeugen Texte bisher autoregressiv. Das bedeutet, das System generiert einen Token nach dem anderen, basierend auf dem jeweils vorangegangenen Wortteil. Jeder dieser Schritte erfordert die gleiche Menge an Rechenleistung, unabhängig davon, ob es sich um ein komplexes logisches Argument oder lediglich um ein Füllwort handelt.

Hier setzt die MTP-Technologie an. Anstatt linear vorzugehen, nutzen diese experimentellen Modelle eine Form der spekulativen Dekodierung. Ein leichtgewichtiges „Drafter-Modell“ (Entwurfmodell) trifft Vorhersagen über wahrscheinliche zukünftige Tokens. Während das Hauptmodell (Target Model) die Schwerstarbeit verrichtet, bereitet der Drafter parallel mehrere mögliche Fortsetzungen vor. Dieser Ansatz optimiert die Auslastung der Rechenkerne, die bei herkömmlichen Verfahren oft auf Datenlieferungen aus dem Speicher warten müssen.

Gemeinsame Nutzung des „Key Value Cache“

Der technologische Kern von MTP basiert auf der Zusammenarbeit zwischen dem Hauptmodell und einem wesentlich kleineren Hilfsmodell. In der Gemma-4-Familie verfügen diese Drafter-Modelle beispielsweise lediglich über 74 Millionen Parameter (im Falle von Gemma 4 E2B). Trotz ihrer geringen Größe sind sie hochgradig optimiert. Ein entscheidender Vorteil ist die gemeinsame Nutzung des „Key Value Cache“ – dem aktiven Arbeitsspeicher der KI. Der Drafter muss den Kontext nicht neu berechnen, den das Hauptmodell bereits verarbeitet hat.

Anzeige

Zusätzlich nutzen die E2B- und E4B-Drafter eine Technik namens „Sparse Decoding“, um Cluster wahrscheinlicher Tokens einzugrenzen. Die vom Drafter erstellten Entwürfe werden anschließend vom eigentlichen Gemma-Modell in einem einzigen Rechenpass überprüft. Bestätigt das Hauptmodell die Vorhersage, wird die gesamte Sequenz sofort akzeptiert. Gleichzeitig generiert das System einen weiteren regulären Token parallel dazu. Schlägt die Vorhersage fehl, wird sie verworfen und das Modell kehrt zum Standardprozess zurück. Da das Hauptmodell jeden Schritt verifiziert, bleibt die Fehlerquote auf dem Niveau der Standard-Inferenz.

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

Hardware-Limits und Speicherbandbreite

Der Einsatz von lokaler KI auf herkömmlicher Konsumenten-Hardware stößt oft an Grenzen, die nicht primär in der Rechenkraft der Prozessoren, sondern in der Speicherbandbreite liegen. Während Enterprise-Hardware auf High Bandwidth Memory (HBM) setzt, nutzen Heim-PCs und mobile Geräte Standard-Systemspeicher, der deutlich langsamer operiert.

Bei der Inferenz verbringt der Prozessor einen Großteil der Zeit damit, Parameter vom Videospeicher (VRAM) zu den Recheneinheiten zu bewegen. Während dieser Transferzeit bleiben wertvolle Rechenzyklen ungenutzt. MTP überbrückt diese Wartezeiten, indem es das leichtgewichtige Drafter-Modell nutzt, um spekulative Tokens zu erzeugen, während das Hauptmodell noch mit Datenlieferungen beschäftigt ist. Dies macht den gesamten Prozess deutlich effizienter und verkürzt die Wartezeit für den Endanwender spürbar.

Benchmarks: Von Pixel bis Apple M

Google hat spezifische Leistungsdaten für verschiedene Hardware-Konfigurationen veröffentlicht. Die Ergebnisse zeigen, dass besonders mobile Geräte und modernste Desktop-Chips profitieren:

  • Google Pixel: Die kleineren Modelle E2B und E4B laufen auf Pixel-Smartphones 2,8-mal bzw. 3,1-mal schneller.
  • Apple M4 Silicon: Das wesentlich umfangreichere Modell Gemma 4 31B erreicht auf Apple-Chips einen Geschwindigkeitszuwachs um den Faktor 2,5.
  • NVIDIA RTX PRO 6000: In Tests mit dem Gemma 4 26B Modell konnte die Wartezeit bei gleichbleibender Qualität halbiert werden.

Neben der reinen Geschwindigkeit verbessert die Technologie auch die Energieeffizienz. Da die Generierung schneller abgeschlossen ist, werden die Prozessoren kürzer beansprucht, was sich positiv auf die Akkulaufzeit mobiler Endgeräte auswirkt. Zudem ermöglicht MTP es, größere Modelle wie das 31B Dense Modell flüssiger auf Hardware auszuführen, die zuvor an ihre Leistungsgrenzen stieß.

Google ändert Lizenzierung für Gemma 4

Ein wichtiger strategischer Schritt ist die Änderung der Lizenzierung. Google hat die Gemma-4-Modelle unter die Apache-2.0-Lizenz gestellt. Diese ist deutlich freizügiger als die zuvor genutzten Gemma-spezifischen Lizenzen und erlaubt Entwicklern eine flexiblere Nutzung und Modifikation der Modelle. Dies gilt auch für die neuen MTP-Drafter.

Für Entwickler ist der Einstieg in die spekulative Dekodierung bereits heute möglich. Die MTP-fähigen Versionen sind mit gängigen Frameworks kompatibel, darunter:

  • MLX (optimiert für Apple Silicon)
  • vLLM und SGLang (für den Einsatz in Server-Umgebungen)
  • Ollama (für die einfache lokale Ausführung)

Durch diese breite Unterstützung wird die Hürde gesenkt, lokale KI-Anwendungen zu entwickeln, die in Echtzeit auf Benutzereingaben reagieren können, ohne auf eine Cloud-Anbindung angewiesen zu sein.

Autorenbild Lisa Löw

Lisa

Löw

Junior Online-Redakteurin

IT-Verlag

Anzeige

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.