Cloud Nutzung im Umbruch

Warum Unternehmen ihre Rechenleistung neu zusammensetzen müssen

25. Februar, 2026
05:07

Welches Compute-Modell passt zu welchem Workload? Wie Unternehmen GPUs, Serverless und Container heute pragmatisch kombinieren, und warum Observability dabei zur Schlüsselrolle wird.

Cloud-Infrastrukturen werden zunehmend orchestriert. Workloads wandern zwischen Container-Plattformen, Serverless-Angeboten und spezialisierten Instanzen, je nachdem, was für Performance, Kosten und Betriebsaufwand gerade am sinnvollsten ist. Der „State of Containers and Serverless“-Report von Datadog zeichnet das Bild einer Cloud-Nutzung, die pragmatischer und stärker von Optimierungszielen getrieben wird.

Unternehmen bauen nicht auf ein einziges Compute-Modell, stattdessen entsteht eine hybride Praxis, in der GPU-Ressourcen für datenintensive Aufgaben an Bedeutung gewinnen, Autoscaling neu justiert wird und Arm-Architekturen als Effizienzhebel in den Fokus rücken.

Spezialisierter Compute: GPUs werden zum strategischen Baustein

Mit dem Wachstum von KI-Anwendungen verschiebt sich die Compute-Logik. Organisationen beginnen, GPUs für datenintensive Workloads wie KI-Training und Inferenz einzusetzen. Denn gegenüber General-Purpose-CPUs bringen GPUs für bestimmte KI-Workloads deutliche Vorteile bei Performance und Kosten-Effizienz.

Gleichzeitig rückt eine Frage in den Vordergrund, die in vielen IT-Teams lange eher nachrangig war. Wie gut sind teure Spezialressourcen wirklich ausgelastet? GPU-Umgebungen müssen daher eng überwacht und Allokationen nachjustiert werden, um freie Kapazitäten zu reduzieren. Selbst wenn ein Team heute noch keine GPUs nutzt, lohnt es sich, die Angebote der Cloud-Provider für GPUs und weitere Spezialhardware wie FPGAs und ASICs frühzeitig zu kennen, um im Bedarfsfall schnell skalieren zu können.

Praktisch heißt das: KI verändert nicht nur Applikations-Stacks, sondern auch Beschaffungs- und Betriebsentscheidungen, bis hin zur Frage, welche Telemetrie man zwingend braucht, um Kosten und Nutzen in Einklang zu halten.

Autoscaling: Effizienz durch bessere Signale

Autoscaling gilt vielerorts als Standard, dennoch sind weiterhin viele Kubernetes-Cluster überprovisioniert. Obwohl gewisse Reserven für Stabilität nötig sind, können durch die richtige Konfiguration beim Autoscaling Ressourcen noch gezielter an den tatsächlichen Bedarf angepasst werden, ohne die Einhaltung von Performancezielen zu riskieren.

Dafür sind zwei Schritte zentral:

Bewusste Toolwahl: Teams sollten prüfen, welche Autoscaling-Werkzeuge zu ihren Anforderungen an Flexibilität, Kontrolle und Einfachheit passen.
Signalqualität: Skalierungsregeln auf die Signale stützen, die das Verhalten der Anwendung wirklich abbilden. Oft reichen CPU- und Memory-Auslastung aus. Aber sobald Workloads nicht primär CPU- oder RAM-limitiert sind, können anwendungsnahe Metriken wie Queue-Tiefe oder Request-Rate deutlich bessere Trigger sein, weil sie den tatsächlichen Engpass besser abbilden.

Das passende Compute-Modell: nicht standardisieren, sondern zuordnen

Compute ist heute ein Portfolio und es ist wenig sinnvoll, alles über einen einzigen Ansatz abzubilden, wenn die Cloud längst Alternativen bietet, die für unterschiedliche Profile besser passen. Die Kernfrage ist daher nicht „Serverless oder Container?“, sondern „Welche Umgebung ist für diesen Workload die effizienteste und zuverlässigste?“

Serverless: Für eventgetriebene oder stark schwankende („spiky“) Workloads sind Serverless-Plattformen attraktiv, weil sie schnell skalieren und eine nutzungsbasierte Abrechnung ermöglichen.
Managed Container-Plattformen: Für langlebige Services oder Anwendungen mit stärkerem Infrastrukturbezug sind diese die pragmatische Wahl, weil sie viel Betrieb „mitbringen“ und den Overhead reduzieren.
Selbst betriebenes Kubernetes: Wenn maximale Kontrolle und Flexibilität gefragt sind, kann ein solches Set-up sinnvoll sein allerdings nur, wenn man bereit ist, den dafür nötigen Betriebsaufwand wirklich zu tragen.

In der Praxis bedeutet das: Workloads regelmäßig neu zu bewerten und dabei auch interne Gewohnheiten zu hinterfragen. Gerade dort, wo ein Unternehmen historisch nur wenige Services nutzt, entstehen schnell implizite Regeln, die sinnvolle Platzierung verhindern.

Arm als Effizienzhebel: Kostenoptimierung über Architektur

Neben GPUs rücken ARM-Architekturen immer stärker in den Fokus, weil ihre Verwendung bei CPU-basierten Workloads eine Möglichkeit bietet, Kosten zu optimieren, ohne zwangsläufig Performance einzubüßen. ARM steht für hohe Kerndichte und energieeffizientes Design und eignet sich besonders für Serving-Szenarien mit niedriger Latenz oder hohem Durchsatz.

Der Ansatz für eine Bewertung sollte immer “testen, messen, vergleichen” sein. Erst die wichtigsten Workloads auf Arm pilotieren (Kompatibilität, Performance, potenzielle Einsparungen), dann die Adoption über Zeit nachverfolgen und prüfen, ob Migrationen den erwarteten Preis-/Performance-Effekt tatsächlich liefern.

Was moderne Cloudnutzung auszeichnet

Das Monitoring von GPUs, Serverless-Funktionen und Container-Workloads wird immer wichtiger, da es dabei hilft, Unterauslastung zu erkennen, Skalierung zu bewerten und Migrationen zu begleiten. Observability wird hierbei zum Enabler, denn transparente Telemetrie ist eine Grundvoraussetzung, um Cloud-Strategien iterativ zu optimieren.

Am Ende geht es weniger um „die eine richtige Architektur“ als um eine grundlegende Ausrichtung. Cloudnutzung ist ein kontinuierlicher Entscheidungsprozess. Wer seine Workloads beobachtet, die Umgebung bewusst auswählt und Optimierung als laufende Praxis versteht, kann Performance, Kosten und operativen Aufwand deutlich besser ausbalancieren.

Stefan

Marx

Director Product Management EMEA

Datadog

Marx ist seit über 20 Jahren in der IT-Entwicklung und -Beratung tätig. In den vergangenen Jahren arbeitete er mit verschiedenen Architekturen und Techniken wie Java Enterprise Systemen und spezialisierten Webanwendungen. Seine Tätigkeitsschwerpunkte liegen in der Planung, dem Aufbau und dem Betrieb der Anwendungen mit Blick auf die Anforderungen und Problemstellungen hinter den konkreten

Stefan

Marx

Meistgelesene Artikel

US-Prozessoren hebeln europäische Cloud-Souveränität aus

Spotify down: Songs lassen sich nicht mehr laden

Turbo für lokale KI: Google beschleunigt Gemma 4 um das Dreifache

Sicherheits-Gau bei Anthropic: Claude-Extension in drei Stunden erneut gehackt

Checkliste für Spam-Anrufe: Diese Nummern sind Abzocke

IT Verlag

Wichtige Links

Kontakt

Warum Unternehmen ihre Rechenleistung neu zusammensetzen müssen

Spezialisierter Compute: GPUs werden zum strategischen Baustein

Autoscaling: Effizienz durch bessere Signale

Das passende Compute-Modell: nicht standardisieren, sondern zuordnen

Arm als Effizienzhebel: Kostenoptimierung über Architektur

Was moderne Cloudnutzung auszeichnet

Stefan

Marx

Artikel zu diesem Thema

Weitere Artikel

Meistgelesene Artikel

US-Prozessoren hebeln europäische Cloud-Souveränität aus

Spotify down: Songs lassen sich nicht mehr laden

Turbo für lokale KI: Google beschleunigt Gemma 4 um das Dreifache

Sicherheits-Gau bei Anthropic: Claude-Extension in drei Stunden erneut gehackt

Checkliste für Spam-Anrufe: Diese Nummern sind Abzocke