Google präsentiert die 8. Generation seiner TPUs: TPU 8t für massives Training und TPU 8i für Inferenz. Bis zu 2x mehr Leistung pro Watt für moderne KI-Agenten.
Nach einem Jahrzehnt interner Hardware-Entwicklung markiert die achte TPU-Generation einen Strategiewechsel bei Google: Erstmals werden getrennte Chip-Designs für die unterschiedlichen Phasen des KI-Lebenszyklus eingesetzt. Während die bisherigen Generationen als Allzweck-Beschleuniger fungierten, sind die neuen Chips TPU 8t (Training) und TPU 8i (Inferenz/Serving) gezielt auf spezifische Rechenlasten optimiert, berichtet Google.
TPU 8t: Optimierung für Modell-Training
Die TPU 8t wurde von Google entwickelt, um die Entwicklungszyklen von Foundation-Modellen signifikant zu verkürzen. Im Vergleich zur Vorgängergeneration bietet ein einzelner TPU-8t-Pod eine fast dreifache Rechenleistung.
- Skalierbarkeit: Ein Superpod skaliert auf bis zu 9.600 Chips. Dies ermöglicht eine Rechenleistung von 121 ExaFlops.
- Speicherkapazität: Das System bietet Zugriff auf zwei Petabyte gemeinsamen High Bandwidth Memory (HBM). Die Bandbreite zwischen den Chips wurde gegenüber der siebten Generation verdoppelt.
- Netzwerk und Software: Durch das neue „Virgo Network“ und die Software-Optimierung via JAX und Pathways ermöglicht die Architektur eine nahezu lineare Skalierung auf bis zu eine Million Chips in einem logischen Cluster.
- Zuverlässigkeit (RAS): Google gibt für die TPU 8t einen sogenannten „Goodput“ (effektive Rechenzeit) von über 97 % an. Dies wird durch Echtzeit-Telemetrie und Optical Circuit Switching (OCS) erreicht, welches defekte Verbindungen ohne menschliches Eingreifen automatisch umgeht.
TPU 8i: Spezialisierung auf Inferenz und KI-Agenten
Die TPU 8i von Google ist als „Reasoning Engine“ konzipiert. Ihr Fokus liegt auf der Verarbeitung komplexer, mehrstufiger Workflows, wie sie bei autonomen KI-Agenten auftreten, die in kontinuierlichen Feedback-Schleifen arbeiten.
- Speicher-Architektur: Um Leerlaufzeiten des Prozessors zu vermeiden, kombiniert die TPU 8i 288 GB HBM mit 384 MB On-Chip-SRAM. Dies entspricht einer Verdreifachung des SRAM im Vergleich zur Vorgängerversion.
- System-Integration: Als Host-Prozessoren kommen erstmals Googles eigene, auf der Arm-Architektur basierende Axion-CPUs zum Einsatz. Die Anzahl der physischen CPU-Hosts pro Server wurde verdoppelt.
- MoE-Optimierung: Für Mixture-of-Experts-Modelle (MoE) wurde die Interconnect-Bandbreite (ICI) auf 19,2 Tb/s verdoppelt. Eine neue „Boardfly“-Topologie reduziert die Netzwerk-Latenz innerhalb des Systems um mehr als 50 %.
- Beschleunigung: Eine integrierte „Collectives Acceleration Engine“ (CAE) entlastet den Chip von globalen Operationen und senkt die On-Chip-Latenz um den Faktor fünf.
Effizienz und Nachhaltigkeit im Rechenzentrum
Ein zentraler Aspekt der achten Generation ist die Steigerung der Energieeffizienz. In modernen Rechenzentren ist die verfügbare elektrische Leistung oft der limitierende Faktor für die Skalierung.
- Leistung pro Watt: TPU 8t und 8i liefern eine bis zu zweifach höhere Performance pro Watt im Vergleich zur Vorgängergeneration (Codename „Ironwood“).
- Kühlung: Beide Chips nutzen die vierte Generation der Google-Flüssigkühlungstechnologie. Diese ermöglicht höhere Leistungsdichten, die mit herkömmlicher Luftkühlung nicht mehr realisierbar wären.
- System-Design: Durch die Integration von Netzwerk-Konnektivität und Rechenleistung auf demselben Chip wird der Energieaufwand für den Datentransport innerhalb eines TPU-Pods minimiert.
Verfügbarkeit und Software-Unterstützung
Google stellt die neue Hardware als Teil seines „AI Hypercomputers“ bereit, einer integrierten Lösung aus Hardware, Software-Frameworks und flexiblen Verbrauchsmodellen. Beide Plattformen unterstützen nativ die gängigen Entwickler-Frameworks wie JAX, PyTorch, vLLM und SGLang. Zudem wird „Bare Metal“-Zugriff angeboten, um Virtualisierungs-Overheads zu vermeiden.
Die Chips TPU 8t und TPU 8i sollen im Laufe des Jahres 2026 allgemein verfügbar sein. Google plant, damit die Infrastruktur für die nächste Stufe der KI-Entwicklung bereitzustellen, in der Modelle nicht mehr nur statische Antworten geben, sondern als Agenten komplexe Problemstellungen autonom lösen.