ChatGPT kann jetzt sehen und sprechen

26. September, 2023
10:28

Bildquelle: Irrmago / depositphotos.com

OpenAI hat eine neue Version seines Chatbots vorgestellt, der mit Menschen durch gesprochene Worte interagieren kann und Bilder erkennt.

Die Sprachfunktion wird von einem neuen Text-to-Speech-Modell unterstützt, das aus Text und einigen Sekunden gesampelter Sprache menschenähnliche Stimmen erzeugen kann. OpenAI hat nach eigenen Angaben mit etablierten Synchronsprechern zusammengearbeitet, um fünf verschiedene Stimmen zu erzeugen, wobei das Open-Source-Spracherkennungssystem Whisper zur Transkription verbaler Äußerungen in Text verwendet wird.

Zum ersten Mal kann ChatGPT auch auf Bilder reagieren. Die Nutzer können zum Beispiel ein Foto von etwas machen und sich dieses erklären lassen.

„Wir wollen ChatGPT benutzerfreundlicher machen – und hilfreicher“, sagt Peter Deng, OpenAIs Vizepräsident für Verbraucher- und Unternehmensprodukte.

Die neuen Funktionen werden in den kommenden zwei Wochen für zahlende Plus- und Enterprise-Abonnenten verfügbar sein. Um die Sprachfunktionen zu aktivieren, müssen die Nutzer das Menü „Einstellungen“ in der App aufrufen, dann zu „Neue Funktionen“ gehen und sich für die Sprachkonversation entscheiden. Anschließend müssen sie auf die Kopfhörertaste in der oberen rechten Ecke tippen und die gewünschte Stimme auswählen.

Die Sprachfunktion wird zunächst auf die ChatGPT-Apps für Android und iOS beschränkt sein, während die Bilderfunktion standardmäßig auf allen Plattformen verfügbar sein wird.

ChatGPT Generative KI

Lars

Becker

Stellvertretender Chefredakteur

IT Verlag GmbH

ChatGPT kann jetzt sehen und sprechen

Lars

Becker

Weitere Artikel

Meistgelesene Artikel

Facebook und Instagram down: Globale Störung bei Meta

Google Gemini down: KI seit Stunden nicht erreichbar

Apple WWDC 2026: Das sind die wichtigsten Neuheiten

KI-Agenten: Architektur schlägt Modell

US-Prozessoren hebeln europäische Cloud-Souveränität aus

IT Verlag

Wichtige Links

Kontakt