Modelle für On-Device-KI

Apple integriert Google Gemini und Nvidia Confidential Computing für neue Siri-Generation

1. Juni, 2026
18:30

Bildquelle: umitc-Shutterstock.com

Apple komprimiert Google Gemini für die On-Device-Verarbeitung auf dem iPhone, verlagert komplexe Siri-Anfragen jedoch verschlüsselt in die Google Cloud.

Der US-amerikanische Technologiekonzern Apple unternimmt im Vorfeld seiner Worldwide Developers Conference im Juni 2026 intensive Anstrengungen, um die Fähigkeiten der hauseigenen Sprachassistenz Siri grundlegend zu erweitern. Im Zentrum dieser Entwicklungsarbeit steht eine strategische Kooperation mit dem Konkurrenten Google, um dessen generative Modellfamilie Gemini direkt in das Betriebssystem des iPhones zu integrieren. Ein zentrales technologisches Ziel von Apple besteht darin, rechenintensive KI-Modelle so weit zu komprimieren, dass sie als On-Device-Systeme lokal auf der Hardware des Smartphones ausgeführt werden können.

Dieser Prozess, der in der Fachwelt als Destillation bezeichnet wird, soll es einem kleineren, ressourceneffizienteren Modell ermöglichen, das Verhalten und die logischen Verknüpfungen eines riesigen Cloud-Modells zu imitieren. Durch das gezielte Entfernen weniger relevanter Gewichtungen im neuronalen Netz soll die Sprachassistenz Siri in die Lage versetzt werden, Standardaufgaben ohne permanente Internetverbindung und unter Wahrung der lokalen Datensphäre zu verarbeiten. Dennoch erweist sich eine vollständige Unabhängigkeit von externen Servern nach aktuellen Analysen als technisch nicht realisierbar.

Die Diskrepanz zwischen lokaler Hardware und Billionen-Parameter-Modellen

Die physikalischen und architektonischen Grenzen mobiler Endgeräte stellen die Entwickler vor erhebliche Hürden. Obwohl moderne Smartphone-Prozessoren fortlaufend für die Ausführung künstlicher Intelligenz optimiert werden – was Apple traditionell durch die Weiterentwicklung seiner integrierten Neural Engine betont –, reicht die lokale Leistung für umfassende generative Sprachprozesse oft nicht aus. Mobile Grafikeinheiten und spezialisierte neuronale Prozessierungseinheiten sind für kontextbezogene, hocheffiziente Teilaufgaben optimiert, verfügen jedoch nicht über die erforderliche Kapazität des Arbeitsspeichers, um extrem große Modelle permanent im Speicher zu halten.

Während lokal ausführbare Modelle auf Mobiltelefonen physisch auf wenige Milliarden Parameter begrenzt sind, umfassen die neuesten Cloud-basierten Versionen von Google Gemini mehrere Billionen Parameter. Zudem müssen On-Device-Modelle quantisiert werden, was bedeutet, dass sie mit einer geringeren mathematischen Präzision operieren. Dies beschleunigt zwar die lokale Token-Generierung, verringert jedoch die Genauigkeit der Sprachausgabe im Vergleich zu den vollwertigen Cloud-Modellen. Aus diesem Grund filtert Google bei seinem eigenen Android-Betriebssystem komplexe Konversationsanfragen standardmäßig direkt über die Cloud und verzichtet auf eine rein lokale Umsetzung des vollständigen Assistenten.

Verlagerung komplexer Berechnungen in die Cloud-Infrastruktur

Aufgrund dieser materiellen Limitierungen ist die Implementierung einer rein lokalen KI-Infrastruktur für anspruchsvolle Aufgaben ausgeschlossen. Wenn die überarbeitete Siri-Version im Laufe des Jahres 2026 für Endanwender freigegeben wird, kommt ein hybrides Verarbeitungsmodell zum Einsatz. Einfache, kontextuelle Funktionen wie das Zusammenfassen von Audioaufnahmen oder die Textvorhersage werden direkt auf dem iPhone verarbeitet. Sobald ein Benutzer jedoch komplexe, mehrstufige Fragen stellt oder eine tiefergehende Konversation herbeiführt, wird die Anfrage automatisch an eine externe Server-Infrastruktur weitergeleitet.

Ursprünglich plante Apple offenbar, diese Anfragen exklusiv über die eigene, Private Cloud Compute genannte Server-Architektur abzuwickeln, die auf M-Serie-Chips aus den Mac-Computern basiert. Berichte aus der Entwicklung zeigen jedoch, dass Apple erhebliche Schwierigkeiten hat, die unkomprimierten Gemini-Modelle stabil und effizient auf dieser eigenen Hardware laufen zu lassen. Um die geforderte Verarbeitungsgeschwindigkeit ohne Verzögerungen zu gewährleisten, erfolgt die Auslagerung komplexer Anfragen daher direkt in die Google-Cloud-Infrastruktur.

Implementierung von Confidential Computing mit Nvidia-Plattformen

Da die Verarbeitung persönlicher Nutzerdaten auf fremden Cloud-Servern dem langjährigen Datenschutzversprechen von Apple widerspricht, greift der Konzern auf eine technologische Absicherung zurück. Apple hat hierzu eine vertragliche Vereinbarung mit dem Halbleiterhersteller Nvidia geschlossen, um dessen Confidential-Computing-Plattform innerhalb der Google Cloud zu nutzen. Diese Technologie stellt eine vertrauenswürdige Ausführungsumgebung bereit, welche sicherstellt, dass die Daten und KI-Modelle auch während des aktiven Verarbeitungsprozesses im Arbeitsspeicher der Nvidia-Grafikprozessoren durchgehend kryptografisch verschlüsselt bleiben. Weder Google als Plattformbetreiber noch Apple oder unbefugte Dritte können die verarbeiteten Informationen im Klartext einsehen.

Apple beabsichtigt, dieses Sicherheitskonstrukt unter dem bekannten Markennamen Private Cloud Compute zu führen, um Bedenken hinsichtlich der Privatsphäre zu zerstreuen. Die zusätzliche Verschlüsselungsebene verringert zwar die Verarbeitungsgeschwindigkeit geringfügig, ermöglicht jedoch die Einhaltung strenger Sicherheitsvorgaben.

Implikationen für die IT-Governance und das IT-Sicherheitsmanagement

Die Etablierung hybrider KI-Architekturen auf weitverbreiteten mobilen Endgeräten hat weitreichende Konsequenzen für das IT-Sicherheitsmanagement, die IT-Governance und das übergeordnete IT-Risikomanagement in modernen Unternehmen im Jahr 2026. Da Mitarbeiter geschäftliche iPhones intensiv im Arbeitsalltag nutzen, führt die automatische Integration mächtiger Cloud-Modelle in standardisierte Betriebssystemfunktionen zu neuen potenziellen Datenabflusskanälen. Eine vorausschauende IT-Governance darf sich nicht darauf verlassen, dass vertrauliche Firmeninterna durch die lokale Hardware geschützt sind.

Unternehmen müssen im Rahmen ihres Risikomanagements klare Richtlinien erlassen, welche die Interaktion mit cloudbasierten Sprachassistenten auf Dienstgeräten reglementieren. Das IT-Sicherheitsmanagement muss technische Kontrollmechanismen implementieren, um das unbefugte Abfließen von geschäftlichen Dokumenten, Quellcodes oder Kundendaten über automatisierte Siri-Anfragen an externe Rechenzentren zu vermeiden. Nur durch eine lückenlose Verhaltensüberwachung und die gezielte Härtung der mobilen Unternehmensinfrastruktur lässt sich verhindern, dass vertrauliche Unternehmenswerte über hybride Cloud-Schnittstellen unbeabsichtigt exponiert werden.

Lisa

Löw

Junior Online-Redakteurin

IT-Verlag

Apple integriert Google Gemini und Nvidia Confidential Computing für neue Siri-Generation

Die Diskrepanz zwischen lokaler Hardware und Billionen-Parameter-Modellen

Verlagerung komplexer Berechnungen in die Cloud-Infrastruktur

Implementierung von Confidential Computing mit Nvidia-Plattformen

Implikationen für die IT-Governance und das IT-Sicherheitsmanagement

Lisa

Löw

Weitere Artikel

Meistgelesene Artikel

Hacker löscht europäische Regierungsdatenbank vollständig

Hackergruppe erpresst Bosch mit gestohlenen Konstruktionsdaten

Enttäuschung nach Relaunch von Claude Fable 5

Anthropic streicht Fable 5 vorübergehend aus Abos

Vibe Coding ist keine gute Idee bei Java

IT Verlag

Wichtige Links

Kontakt