Schon in sehr naher Zukunft wird sämtliche Technologieinfrastruktur effektiv zu KI-Infrastruktur werden. Und das ist keine Übertreibung.
Wenn Unternehmen den Einsatz generativer KI-Modelle und zunehmend autonom agierender Agenten ausweiten, wird jede Ebene des Technologie-Stacks – von der Hardware-Basis bis zur Orchestrierung – umgestaltet, um KI-Workloads zu unterstützen.
Nach dem Wechsel von physischen Rechenzentren zu Cloud Computing stellt dieser Übergang eine weitere Disruption dar. Innerhalb weniger Jahre könnten große Teile des herkömmlichen Anwendungsbereichs verschwinden. Ersetzt werden sie durch KI-gesteuerte Systeme und Workflows, die von der KI selbst entworfen und möglicherweise in Echtzeit angepasst werden.
Warum KI-Infrastruktur bisher geltende Regeln außer Kraft setzt
Cloud Computing war historisch von Abstraktion geprägt. Virtualisierung, Container, APIs und Orchestrierungs-Engines machten zugrundeliegende Schichten wie Hardware oder Betriebssysteme zunehmend unsichtbar.
KI-Workloads kehren diesen Trend um. Die Performance hängt direkt von der zugrundeliegenden Hardware und den Strukturen ab. Trainings- und Inferenz-Workloads sind eng mit CPUs, GPUs, Speicher und dem Netzwerk verbunden. KI verbirgt Komplexität nicht – sie bringt sie zum Vorschein.
Dies führt zu einem Paradoxon: Je schneller die KI-Einführung voranschreitet, desto mehr müssen Unternehmen ihre Hardware und Infrastruktur bis ins kleinste Detail verstehen und optimieren. Das Versprechen der „serverlosen“ Simplizität verblasst, wenn Platform-Engineering-Spezialisten sich mit NUMA-Nodes (Non-Uniform Memory Access), PCI-Lanes (Peripheral Component Interconnect) oder GPU-Verbindungen auseinandersetzen müssen, nur um einen nutzbaren Durchsatz zu erzielen.
Die Komplexität des neuen Stacks
Im Zentrum dieser Transformation steht die Beziehung zwischen CPUs und GPUs. GPUs sind gewissermaßen die „Motoren“ der KI, aber sie können nicht isoliert betrieben werden. CPUs speisen Datenpipelines, übernehmen das Preprocessing und verwalten die Planung. In vielen Fällen laufen Jobs auf CPUs als Teil einer koordinierten Pipeline besser als auf GPUs allein. Die Skalierung von Modellen bedeutet, diese Ressourcen ganzheitlich zu orchestrieren und nicht als unabhängige Silos zu behandeln.
Ein ebenso wichtiges Thema ist die Vernetzung. KI-Infrastruktur wird von vier unterschiedlichen Bereichen geprägt: Datennetzwerke für den Datenverkehr innerhalb von Rechenzentren und darüber hinaus, WANs zur Verbindung von Regionen, PCI-Verbindungen zwischen Geräten und RDMA-Netzwerke (Remote Direct Memory Access) für GPU-Cluster mit extrem geringer Latenz. Bei der Einrichtung einer KI-Infrastruktur muss jede dieser Strukturen berücksichtigt werden, bis hin zur Speicherschicht.
Die Herausforderung wird durch die Knappheit von Ressourcen noch verschärft. GPUs sind stark nachgefragt, aber die eigentlichen Engpässe erstrecken sich auch auf die Stromversorgung und den physischen Platzbedarf von Rechenzentren. Ein Partner von Mirantis beispielsweise verbraucht 100 % seiner verfügbaren Energie, während er gerade einmal 20 % der Fläche seiner Einrichtung belegt. Die Regeln für die Gestaltung von Rechenzentren werden aufgrund der Anforderungen der KI neu geschrieben – mehr Strom pro Rack, höhere Anforderungen an die Kühlung und längere Vorlaufzeiten für die Beschaffung von Hardware.
Governance und Souveränität
KI-Workloads werfen mit Blick auf die Souveränität Fragen auf, die sich bei herkömmlichen Anwendungen seltener stellen. Anforderungen an die Datenlokalität, gesetzliche und regulatorische Vorgaben sowie grenzüberschreitende Compliance-Rahmenwerke wie die DSGVO oder der Digital Operational Resilience Act (DORA) der EU sorgen auf neue Art und Weise für Einschränkungen, wo und wie Modelle ausgeführt werden.
Unternehmen müssen nicht nur Verfügbarkeit und Performance gewährleisten, sondern auch für nachweisbare Governance sorgen – für jeden Agenten, jedes Modell und jedes Tool, das sie einsetzen. Souveränität bezieht sich gleichzeitig auf geografische, rechtliche und operative Aspekte. Multi-Tenancy fügt eine weitere Dimension hinzu und erfordert eine strikte Trennung zwischen Workloads, die sich über Teams, Abteilungen oder sogar Partnerorganisationen hinweg erstrecken können.
Entwickler und die „Abstraktionslücke“
Entwickler, die KI-Anwendungen erstellen, möchten sich auf eben diese Applikationen konzentrieren können – ohne sich mit den Details von Verbindungen, Strukturen und Hardware-Pipelines auseinandersetzen zu müssen.
Die Lösung besteht nicht darin, die Komplexität auf die Entwickler abzuwälzen. Vielmehr geht es darum, Plattformen zu entwerfen, die Infrastrukturdetails verbergen und gleichzeitig Kontrolle, Sicherheit und Performance gewährleisten.
Grundlegende Bausteine der KI-Infrastruktur
KI-Infrastruktur kann als vier voneinander abhängige Schichten verstanden werden.
- Workloads: Die oberste Schicht bildet der jeweilige Workload selbst – Training, Feinabstimmung, Inferenz oder Orchestrierung von KI-Agenten. Während für Training im großen Stil oft Tausende von GPUs miteinander verbunden werden müssen, sind für Feinabstimmung oder Inferenz bei kleineren Modellen möglicherweise nur einige wenige erforderlich. Die Flexibilität, mit diesen beiden Extremen umzugehen, ist unerlässlich.
- Benutzererlebnis für Entwickler: Als Nächstes folgt die Schicht der Usability. Entwickler benötigen Konsistenz: Modelle sollten mit klar prognostizierbarer Performance laufen, ohne dass übermäßige manuelle Anpassungen erforderlich sind. Nötig sind Zugriff auf Trainingsressourcen, Inferenzumgebungen und GPU-Partitionierungsfunktionen, wenn ältere Geräte das Ende ihrer Lebensdauer erreichen. Self-Service-Portale, APIs und Anwendungskataloge machen KI auf dieser Ebene für das ganze Unternehmen zugänglich.
- Infrastructure-as-a-Service: Unterhalb der Workloads und der Usability befindet sich die reine Infrastruktur – On-Premises, in der Cloud oder auf Edge-Geräten.
- Verwaltung und Überwachung: Das Fundament bildet die Managementebene. Diese Schicht stellt alle darüber liegenden Ebenen bereit und überwacht und optimiert sie. Sie muss für eine Trennung der Steuerungselemente von den eigentlichen Daten sorgen, damit Fehler in der Verwaltung nicht zu Fehlern bei den Workloads führen. Darüber hinaus muss sie Wiederholbarkeit durch Templates, Kontrolle auf jeder Ebene sowie die nötige Flexibilität bieten, um Anbieter, Frameworks oder Strukturen je nach Bedarf zu wechseln. Genau an dieser Stelle entscheidet sich, ob Unternehmen in Sachen Souveränität erfolgreich sind oder nicht.
Strategische Imperative für Plattformen
Welche Prinzipien sollten die nächste Generation von KI-Infrastrukturplattformen leiten? Dabei stechen mehrere Imperative hervor.
- Verwaltbarkeit: Plattformen dürfen nicht von Hand zusammengestückelt und anfällig sein. Sie müssen Upgrades über den gesamten Lebenszyklus und kontinuierliche Verbesserungen unterstützen.
- Überwachung/Kontrolle: Jede Schicht – von der GPU-Auslastung bis zur Reaktion der Applikation – muss klar instrumentiert sein. Performance ist keine Option, sondern vielmehr eine zwingende Voraussetzung.
- Flexibilität: Unternehmen müssen die Möglichkeit behalten, einzelne Schichten des Stacks zu verändern, wenn sich Anbieter weiterentwickeln. Hier gilt es, Vendor Lock-in zu vermeiden. Die Infrastruktur muss sich ohne umfassende Neuprogrammierung anpassen lassen.
- Wiederholbarkeit: Templates und deklarative Muster erfassen bewährte Architekturen, reduzieren die Komplexität und sorgen dafür, dass das Rad nicht unnötig neu erfunden werden muss.
- Borderless Computing: Ressourcen müssen über Rechenzentren, Clouds und Edge hinweg nutzbar und überall, wo sie ausgeführt werden, sicher und beobachtbar sein.
- Garantien für Ressourcen: Anstatt lediglich Hardware zu abstrahieren, sollten Workloads klare Leistungsanforderungen definieren und garantierte Performancezusagen erhalten. Dadurch wird Abstraktion zu Sicherheit: Anwendungen fordern an, was sie benötigen, und die Infrastruktur reagiert entsprechend und vorhersehbar.
Gemeinsam definieren diese Imperative, was und wie eine strategische, offene Infrastruktur künftig sein muss: nach Bedarf zusammenstellbar, kontrollierbar und flexibel an die Realitäten von KI-Workloads anpassbar.
Open Source als Weg in die Zukunft
Eine schnelle Amortisation ist eine wichtige geschäftliche Anforderung. Unternehmen, die in KI-Infrastruktur investieren, können es sich nicht leisten, monatelang auf einen entsprechenden Gegenwert zu warten. Stacks der Anbieter versprechen Zweckmäßigkeit, indem sie alles in einem geschlossenen Ökosystem bündeln. Dies hat jedoch seinen Preis: Innovation wird durch die Roadmap des jeweiligen Anbieters eingeschränkt und Flexibilität geht verloren.
Ein Open-Source-Ansatz bietet eine Alternative. Eine individuell zusammensetzbare Infrastruktur, die auf deklarativen Mustern basiert, sorgt dafür, dass sich Plattformen zusammen mit dem Ökosystem weiterentwickeln. Templates sorgen für Wiederholbarkeit. Klare Zusagen bieten Garantien. Borderless Computing ermöglicht es, Ressourcen zu identifizieren und zu sichern, wo immer sie sich befinden. Unternehmen und Organisationen nehmen ihr Schicksal so in die eigene Hand, anstatt darauf zu warten, dass sich monolithische Plattformen an ihre Anforderungen anpassen.
Dies ist die Vision, die Mirantis bei der Entwicklung von k0rdent leitet, einer Open-Source-Plattform, die von Grund auf für die Unterstützung von KI-Workloads konzipiert wurde. k0rdent ist Multicloud-, Multicluster- und Bare-Metal-fähig. Mithilfe einer musterbasierten Lösung wird eine deklarative KI-Infrastruktur-Orchestrierung ermöglicht. Die Plattform versetzt Unternehmen in die Lage, hinsichtlich der Performance von vagen Abstraktionen zu klaren Zusagen überzugehen. Auf diese Weise können Unternehmen Workloads ausführen, wo und wie sie wollen – mit vollständiger Transparenz und Souveränität.
Fazit
Die gesamte Infrastruktur wird zur KI-Infrastruktur. Dieser Wandel wird ebenso dramatisch sein wie der Aufstieg der Cloud, aber komplexer, einschränkender hinsichtlich Ressourcen und noch empfindlicher mit Blick auf die Souveränität. Erfolgreiche Unternehmen werden sich für Verwaltbarkeit, Beobachtbarkeit, Flexibilität und Offenheit entscheiden. Sie werden bei ihren Planungen Faktoren wie Knappheit und Souveränität berücksichtigen. Und sie werden Plattformen einsetzen, die garantierte Performance statt Illusionen von Abstraktion bieten.
Eines ist klar: KI wird nicht darauf warten, dass sich die Branche stabilisiert. Unternehmen müssen sich jetzt entscheiden, ob sie sich selbst in geschlossene Ökosysteme einsperren oder eine strategische, offene Infrastruktur anstreben. Wir glauben, dass die Wahl eigentlich klar ist: Die Zukunft gehört denen, die KI sicher, in großem Maßstab und auf einer von ihnen kontrollierten Infrastruktur nutzen können.