Auf der Entwicklerkonferenz I/O 2026 verschiebt Google den Fokus hin zu autonomen KI-Agenten, Videosimulationen und neuen Deepfake-Erkennungstools.
Der Technologiekonzern Google hat seine jährliche Entwicklerkonferenz Google I/O 2026 in Mountain View, Kalifornien, mit einer tiefgreifenden strategischen Neuausrichtung eröffnet. Im Fokus der zweitägigen Veranstaltung steht der Übergang von reinen abfragebasierten Chatbots hin zu sogenannten autonomen KI-Agenten („agentic AI“). Vor rund 7.000 geladenen Gästen im Shoreline Amphitheater sowie Entwicklern in über 100 Ländern präsentierte Google-CEO Sundar Pichai das hochentwickelte Videosimulationsmodell Gemini Omni, das beschleunigte Modell Gemini 3.5 Flash sowie die agentenbasierte Programmierplattform Antigravity 2.0. Die Ankündigungen verdeutlichen Googles Bestreben, künstliche Intelligenz tiefer in das gesamte Produkt-Ökosystem zu integrieren, um komplexe Workflows ohne menschliche Zwischenschritte auszuführen.
Enormes Wachstum bei Token-Volumen und KI-Investitionen
In seiner zweistündigen Eröffnungsrede zog Konzernchef Sundar Pichai Bilanz über die Entwicklung seit der strategischen Ausrichtung des Unternehmens hin zu einer primären KI-Firma. Er betonte den differenzierten Full-Stack-Ansatz des Konzerns, der eine schnellere Iteration über alle Software- und Hardwarebereiche hinweg ermögliche. Pichai untermauerte dieses Wachstum mit konkreten operativen Kennzahlen des Konzerns:
- 3,2 Billiarden (Quadrillion) Tokens verarbeitet Google mittlerweile pro Monat, was einer Versiebenfachung im Vergleich zum Vorjahr entspricht.
- 19 Milliarden Tokens werden pro Minute über die hauseigenen Google-APIs verarbeitet.
- 8,5 Millionen Entwickler nutzen monatlich die KI-Modelle des Unternehmens für eigene Projekte.
- 900 Millionen Nutzer verzeichnet die Gemini-App aktuell, nach 400 Millionen im Vorjahr.
- 2,5 Milliarden Anwender greifen monatlich auf die KI-gestützten Suchübersichten (AI Overviews) zu.
- 50 Milliarden Bilder wurden bereits mit dem Modell Nano Banana generiert.
Um diese globale Infrastruktur aufrechtzuerhalten und auszubauen, bezifferte Pichai die geplanten KI-Investitionen von Google für das laufende Jahr auf eine Summe zwischen 180 Milliarden und 190 Milliarden US-Dollar.
Multimodale Videosimulation mit Gemini Omni
Als eine der zentralen Produktankündigungen wurde das Modell Gemini Omni vorgestellt. Google beschreibt das System als ein multimodales „Weltmodell“ (world model), das in der Lage ist, aus beliebigen Eingabekombinationen wie Bildern, Audioaufnahmen, Videos oder Texten hochwertige Videoinhalte zu generieren. Die Besonderheit von Gemini Omni liegt in seiner physikalischen Simulationskomponente: Das Modell berechnet physikalische Gesetze, Schwerkraft und kinetische Bewegungsabläufe präziser als vorherige Generationen und kann antizipieren, welche logische visuelle Aktion als nächstes im Video geschehen müsste. Hierfür kombiniert das System die logischen Fähigkeiten der Gemini-Modelle mit den DeepMind-Technologien Nano Banana, Veo und Genie.
Über die reine Erstellung hinaus erlaubt die Variante „Omni Flash“ die Bearbeitung bestehender Videos mittels natürlicher Sprachbefehle sowie das Erstellen personalisierter digitaler Avatare. Der weltweite Rollout für Abonnenten von Google AI Plus, Pro und Ultra über die Gemini-App und Google Flow hat begonnen. Die Integration in YouTube Shorts ist für die kommende Woche geplant, während Unternehmenskunden und Entwickler in den kommenden Wochen Zugriff über dedizierte APIs erhalten sollen.
Gemini Omni is our new model that can create anything from any input – starting with video. It combines Gemini’s intelligence with our generative media models, for a new level of world understanding, multimodality, and editing.
— Sundar Pichai (@sundarpichai) May 19, 2026
Gemini Omni Flash is rolling out today to Google AI… pic.twitter.com/Bmdt6yAkf4
Autonome Betriebssystem-Entwicklung mit Antigravity 2.0
Für professionelle Entwickler und komplexe Workflows präsentierte Google das Modell Gemini 3.5 Flash, das laut Unternehmensangaben viermal schneller agiert als konkurrierende Spitzenmodelle und erhebliche Leistungssteigerungen bei Programmier-Benchmarks erzielt. Dieses Modell bildet das Fundament für Antigravity 2.0, eine dezidiert auf autonome KI-Agenten ausgerichtete Entwicklungsumgebung. Die Plattform ermöglicht es mehreren KI-Unteragenten, parallel über Desktop-Anwendungen, Kommandozeilenwerkzeuge (CLI), Software Development Kits (SDKs) sowie Android- und Firebase-Integrationen hinweg zusammenzuarbeiten.
Um das Potenzial dieser Technologie zu demonstrieren, zeigte DeepMind-Ingenieur Varun Mohan auf der Bühne eine Live-Präsentation von Google I/O 2026. Innerhalb von nur 12 Stunden entwickelte das System Antigravity in Kombination mit Gemini 3.5 Flash ein vollständig funktionstüchtiges Betriebssystem aus dem Nichts. An dem automatisierten Prozess waren 93 Unteragenten beteiligt, die 15.000 Modell-Anfragen generierten und 2,6 Milliarden Tokens verarbeiteten. Die Gesamtkosten für die API-Credits beliefen sich dabei auf unter 1.000 US-Dollar. Zum Beleg der Funktionalität startete der Ingenieur das klassische Videospiel Doom live auf dem von der KI generierten Betriebssystem.

Ausbau der Erkennungswerkzeuge für KI-Deepfakes
Angesichts der rasanten Fortschritte bei der synthetischen Medienbeseitigung betonte Pichai die wachsende Notwendigkeit von Transparenzwerkzeugen, da Studien zeigen, dass menschliche Nutzer hochqualitative Deepfakes nur in rund 25 Prozent der Fälle korrekt identifizieren. Google erweitert daher sein Arsenal an Erkennungs- und Kennzeichnungssystemen. Seit der Einführung des digitalen Wasserzeichensystems „SynthID“ vor drei Jahren wurden über 100 Milliarden Bilder und Videos sowie Audioinhalte im Umfang von 60.000 Jahren mit den unsichtbaren, pixelbasierten Markierungen versehen. Das Erkennungswerkzeug „SynthID Detector“, das bislang nur in der Gemini-App verfügbar war, wird ab sofort direkt in die Google-Suche integriert. Eine Ausrollung für die Desktop- und Mobilversionen des Chrome-Browsers soll in den kommenden Wochen erfolgen.
Zusätzlich baut Google die Unterstützung für C2PA-Inhaltnachweise (Content Credentials) aus, wodurch Metadaten zur Herkunft und Bearbeitung von Bildern direkt über Google Lens ausgelesen werden können. Partnerschaften zur Übernahme dieses Wasserzeichensystems wurden frisch mit OpenAI, Kakao und ElevenLabs geschlossen, während Nvidia das System bereits seit vergangenem Jahr unterstützt. Zur Veranschaulichung zeigte Pichai ein gefälschtes Bild aus den sozialen Medien, das ihn beim Essen eines Hamburgers mit Elon Musk, Sam Altman und Jensen Huang zeigte, und kommentierte die Situation mit den Worten: „Es ist offensichtlich gefälscht. Ich esse keine Hamburger.“

Über die erweiterte Such- und Browserfunktion können Nutzer künftig per Kreismarkierung oder Rechtsklick in Chrome direkt abfragen, ob ein Bild generiert wurde, und erhalten umgehend den entsprechenden Kontext.
