OpenAI stellt Text-zu-Video-KI Sora vor

15. Februar, 2024
19:45

OpenAI hat am Donnerstag ein neues KI-Produkt namens Sora angekündigt. Das Tool soll Textprompts in Videos von bis zu einer Minute Länge umwandeln.

OpenAI betont allerdings, dass Sora sich noch in der Forschungsphase befindet und noch nicht in die Produktpalette des Unternehmens integriert wird. Andere Unternehmen, von Giganten wie Google bis hin zu Start-ups wie Runway, haben bereits Text-to-Video-KI-Tools vorgestellt. OpenAI behauptet aber, dass Sora sich durch seinen beeindruckenden Fotorealismus auszeichnet und durch seine Fähigkeit, längere Clips zu produzieren als die kurzen Schnipsel, die andere Modelle üblicherweise produzieren.

Bei der vorgestellten Sora-Demo sind Videos zu sehen, die aussehen, als wären sie quasi aus einem Hollywood-Film entnommen worden. Bei dem Showcase wurden kurze, in Minutenschnelle erstellte Clips von Mammuts gezeigt, oder, wie unten zu sehen, eine Straßenszene in Tokio.

Twitter Link

Um Sora zu bauen, hat das Team die Technologie hinter DALL-E 3 angepasst. Wie die meisten Text-zu-Bild-Modelle verwendet DALL-E 3 ein sogenanntes Diffusionmodell. Diese werden darauf trainiert, aus einem Wirrwarr von zufälligen Pixeln ein Bild zu machen. Und so ist Sora nun in der Lage, komplexe Szenen mit mehreren Charakteren, spezifischen Bewegungstypen und genauen Details zu Objekten und Hintergründen zu generieren. Eine besondere Eigenschaft ist ihre Fähigkeit, die Nuancen eines Prompts zu verstehen und zu berücksichtigen, wie verschiedene Objekte in der physischen Welt interagieren. Darüber hinaus generiert die Video-KI ein gesamtes Video auf einmal, anstatt es Bild für Bild zu erstellen.

OpenAI

Lars

Becker

Stellvertretender Chefredakteur

IT Verlag GmbH

OpenAI stellt Text-zu-Video-KI Sora vor

Lars

Becker

Weitere Artikel

Meistgelesene Artikel

Fehler eingeräumt: Mark Zuckerberg bedauert Meta-Umbau

Facebook und Instagram down: Globale Störung bei Meta

Google Gemini down: KI seit Stunden nicht erreichbar

Apple WWDC 2026: Das sind die wichtigsten Neuheiten

KI-Agenten: Architektur schlägt Modell

IT Verlag

Wichtige Links

Kontakt