Modelle für On-Device-KI

Apple verlagert komplexe Siri-Anfragen in die Google Cloud

3. Juni, 2026
19:09

Bildquelle: Tada Images/Shutterstock.com

Im Vorfeld der WWDC 2026 verdichten sich Berichte, dass die kommende Siri-Generation trotz lokaler Datenkompression intensiv auf Cloud-Ressourcen setzt.

Der US-Technologiekonzern Apple steht unmittelbar vor der Vorstellung seiner neuen Betriebssystem-Generation iOS 27 auf der Worldwide Developers Conference. Ein zentraler Fokus der Entwicklungsarbeit liegt auf der grundlegenden Überarbeitung der Sprachassistenz Siri, die durch die Integration generativer künstlicher Intelligenz leistungsfähiger werden soll. Um diese Transformation zu realisieren, ist Apple eine strategische Allianz mit Google eingegangen, um dessen Modellfamilie Gemini als technologische Basis zu nutzen.

Ursprünglich positionierte Apple seine KI-Strategie unter dem Versprechen einer primär lokalen Verarbeitung auf den Endgeräten, um den Schutz der Privatsphäre zu gewährleisten. Aktuelle Berichte von Branchenanalysten und Fachmedien wie The Information und Ars Technica zeigen jedoch, dass eine rein lokale Umsetzung für eine vollwertige kontextuelle Konversations-KI auf Smartphones technisch nicht umsetzbar ist. Die kommende Siri-Architektur muss daher zwangsläufig als hybrides System konzipiert werden, das zu großen Teilen auf externe Cloud-Infrastrukturen angewiesen bleibt.

Apples Verfahren der Modelldestillation zur lokalen Entlastung

Um zumindest grundlegende KI-Funktionen direkt auf dem iPhone ausführen zu können, wendet Apple ein verfahrenstechnisches Prinzip namens Modelldestillation an. Bei diesem datenwissenschaftlichen Ansatz fungiert das unkomprimierte, in Rechenzentren gehostete Gemini-Modell von Google als Lehrer, während ein deutlich kleineres, lokales Modell als Schüler trainiert wird. Durch das systematische Generieren von Frage-Antwort-Paaren lernt das kompaktere Modell, die logischen Verknüpfungen und Sprachpräferenzen des Trillionen-Parameter-Modells zu imitieren.

Im Anschluss werden weniger relevante Gewichtungen aus dem neuronalen Netz entfernt, was als Pruning bezeichnet wird, gefolgt von einer Reduzierung der mathematischen Präzision, der sogenannten Quantisierung. Das resultierende On-Device-Modell, dessen Größe auf drei bis sieben Milliarden Parameter geschätzt wird, ist optimal auf die integrierte Neural Engine der Apple-Prozessoren abgestimmt. Dennoch reichen die Speicherkapazitäten und der Arbeitsspeicher von Mobiltelefonen nicht aus, um komplexe, mehrstufige Dialoge oder tiefergehende logische Analysen lokal zu verarbeiten. Google selbst verzichtet bei seinem Betriebssystem Android auf eine rein lokale Umsetzung umfassender Konversations-Assistenten und leitet verbale Interaktionen standardmäßig in die Cloud weiter.

Kapazitätsengpässe der eigenen Private-Cloud-Compute-Infrastruktur

Für die Verarbeitung jener komplexen Anfragen, die das lokale iPhone-Modell überfordern, plante Apple ursprünglich den exklusiven Einsatz seiner eigenen Server-Infrastruktur mit dem Namen Private Cloud Compute. Diese dedizierten KI-Server basieren auf Clustern von hauseigenen M-Serie-Chips, die auch in Mac-Computern verbaut werden. Das architektonische Versprechen von Private Cloud Compute sieht eine vollständig staatenlose Datenverarbeitung vor, bei der Nutzerdaten weder dauerhaft gespeichert noch für Apple-Mitarbeiter einsehbar sind.

Interne Entwicklungsberichte offenbaren jedoch fundamentale Kapazitätsengpässe. Apple ist es nicht gelungen, die unkomprimierten Gemini-Modelle mit ihren komplexen Strukturabfragen auf den M-Chip-Clustern stabil und effizient zu betreiben. Da die eigenen Serverkapazitäten für die Bewältigung des massiven Datenverkehrs zur Einführung von iOS 27 unzureichend sind, musste der Konzern von seiner ursprünglichen Strategie abweichen. Komplexe Siri-Anfragen werden folglich direkt an die externe Rechenzentrum-Infrastruktur von Google Cloud weitergeleitet.

Datenschutzabsicherung durch Nvidia Confidential Computing

Die Auslagerung persönlicher Sprachdaten an die Cloud-Infrastruktur eines direkten Konkurrenten stellt für Apple ein erhebliches Kommunikationsrisiko dar, da es dem langjährigen Marketing-Narrativ vom absoluten Schutz der Privatsphäre widerspricht. Um diese Datenschutzgrenzen technologisch abzusichern, hat Apple eine vertragliche Vereinbarung mit dem Halbleiterhersteller Nvidia geschlossen. Siri-Anfragen, die in der Google Cloud verarbeitet werden, laufen nicht auf den Standard-Prozessoren von Google, sondern werden über die Confidential-Computing-Plattform von Nvidia isoliert. Diese Technologie stellt hardwarebasierte, vertrauenswürdige Ausführungsumgebungen innerhalb der Grafikprozessoren bereit.

Sämtliche Nutzerdaten und die KI-Modelle selbst verbleiben während des gesamten Verarbeitungsprozesses im Arbeitsspeicher der Nvidia-GPUs durchgehend kryptografisch verschlüsselt. Weder Google als Betreiber der Cloud-Plattform noch unbefugte Dritte können die verarbeiteten Daten im Klartext einsehen. Apple beabsichtigt, dieses Sicherheitskonstrukt unter dem bekannten Markennamen Private Cloud Compute zu führen, um die technologische Verschiebung im Hintergrund für den Endverbraucher unsichtbar zu machen und das gewohnte Sicherheitsversprechen aufrechtzuerhalten.

Lisa

Löw

Junior Online-Redakteurin

IT-Verlag

Apple verlagert komplexe Siri-Anfragen in die Google Cloud

Apples Verfahren der Modelldestillation zur lokalen Entlastung

Kapazitätsengpässe der eigenen Private-Cloud-Compute-Infrastruktur

Datenschutzabsicherung durch Nvidia Confidential Computing

Lisa

Löw

Weitere Artikel

Meistgelesene Artikel

Hacker löscht europäische Regierungsdatenbank vollständig

Hackergruppe erpresst Bosch mit gestohlenen Konstruktionsdaten

Enttäuschung nach Relaunch von Claude Fable 5

Anthropic streicht Fable 5 vorübergehend aus Abos

Vibe Coding ist keine gute Idee bei Java

IT Verlag

Wichtige Links

Kontakt