Wie KI gesprochene Kommunikation übersetzt

DeepL launcht Voice-API für Echtzeit-Übersetzung

DeepL
Bildquelle: Mehaniq / Shutterstock.com

Das KI-Unternehmen DeepL will mit DeepL Voice API Echtzeit-Übersetzung für gesprochene Sprache in Unternehmen bringen. Contact Center könnten Anfragen nun nach Fachkompetenz statt Sprachkenntnissen verteilen.

Sprachliche Vielfalt gehört in vielen Unternehmen längst zum Alltag, stellt operative Teams aber weiterhin vor Herausforderungen. Besonders dort, wo Kommunikation überwiegend mündlich stattfindet, stoßen klassische Übersetzungsprozesse schnell an ihre Grenzen.

Anzeige

Gesprochene Sprache direkt verarbeiten

Die neue Schnittstelle ermöglicht es laut DeepL, Audioinhalte in Echtzeit zu verarbeiten. Gespräche können live transkribiert und parallel in mehrere Zielsprachen übersetzt werden. Entwickler können diese Funktionen direkt in bestehende Anwendungen integrieren und so mehrsprachige Kommunikation ohne Medienbrüche abbilden. Die Übersetzungen sollen dabei nahezu verzögerungsfrei zur Verfügung stehen und lassen sich flexibel in unterschiedliche Workflows einbinden.

Neue Spielräume für Contact Center und Service-Teams

Besonders relevant ist der Ansatz für Contact Center und ausgelagerte Serviceeinheiten, in denen Sprachkompetenz bislang oft über Einsatzpläne und Recruiting entscheidet, wie DeepL selbst sagt. Durch Echtzeit-Übersetzung können Anfragen künftig stärker nach fachlicher Zuständigkeit verteilt werden, unabhängig von der jeweiligen Sprache. Gespräche müssen seltener weitergeleitet werden, Rückfragen lassen sich direkter klären und Wartezeiten reduzieren.

Auch intern sollen sich Vorteile ergeben: Transkripte erleichtern Qualitätskontrollen, Trainings und Auswertungen. Gespräche werden besser dokumentierbar, Feedback kann gezielter erfolgen und Leistungen lassen sich standortübergreifend vergleichen.

Anzeige

Ein zentraler Unterschied zu rein textbasierten Übersetzungslösungen liege im dialogorientierten Ansatz. Mitarbeitende verfolgen das Gespräch über übersetzte Audioinhalte, unterstützt durch Transkription und Übersetzung auf dem Bildschirm. Dadurch bleibt der Austausch natürlicher, Reaktionen erfolgen schneller und sicherer – auch in komplexen oder sensiblen Gesprächssituationen.

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

Wirtschaftliche Effekte jenseits der Technik

Aus betrieblicher Sicht könnte die Technologie tatsächlich neue Möglichkeiten bei Kostenkontrolle und Skalierung bedeuten. Unternehmen können ihre Sprachabdeckung ausweiten, ohne proportional neues Personal mit spezifischen Sprachkenntnissen einstellen zu müssen. Gleichzeitig lassen sich Servicelevels auch zu Randzeiten stabil halten, etwa nachts oder an Wochenenden.

Die DeepL Voice API ist seit Anfang Februar für API-Pro-Kunden verfügbar. Ergänzend startet ein zeitlich begrenztes Early-Access-Programm für Voice-to-Voice-Funktionen, bei dem übersetzte Gespräche auch direkt als Audio ausgegeben werden. Damit rückt eine Form der mehrsprachigen Echtzeitkommunikation näher, die bislang vor allem Vision war.

Pauline Dornig

Pauline

Dornig

Online-Redakteurin

IT Verlag GmbH

Anzeige

Artikel zu diesem Thema

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.