Kompaktes Modell für den Alltagseinsatz

Videos in Kinoqualität: Alibabas Open-Source-KI Wan2.2

6. August, 2025
15:28

Bildquelle: Tao Jiang/Shutterstock.com

Mit der Veröffentlichung der Wan2.2-Serie hebt der chinesische Tech-Konzern Alibaba die Videogenerierung durch Künstliche Intelligenz auf ein neues Niveau.

Die neuen Modelle, die ab sofort als Open Source zur Verfügung stehen, kombinieren hochentwickelte Technik mit ästhetischem Feinsinn – und das bei deutlich verbesserter Effizienz.

Drei Modelle: Hochwertige Videos auf Knopfdruck

Die Wan2.2-Serie besteht aus drei KI-Modellen mit unterschiedlichen Schwerpunkten:

Wan2.2-T2V-A14B für die Umwandlung von Text in Video,
Wan2.2-I2V-A14B zur Erstellung von Videos aus Bildern und
Wan2.2-TI2V-5B, ein Hybridmodell, das beide Ansätze in einem System vereint.

Alle drei Modelle wurden unter dem Leitbild entwickelt, kreative Prozesse zu vereinfachen – ohne dabei Kompromisse bei Qualität oder Kontrolle einzugehen.

Fortschritt durch MoE: Mehr Leistung bei weniger Rechenaufwand

Im Zentrum der Modelle steht die sogenannte MoE-Architektur (Mixture-of-Experts). Sie sorgt dafür, dass bei jedem Rechenschritt nur ein Teil der gesamten Parameter aktiviert wird – konkret 14 von 27 Milliarden. Das Ergebnis: eine Reduktion des Rechenaufwands um bis zu 50 Prozent bei gleichbleibend hoher Qualität.

Ein weiteres technisches Highlight ist das Zwei-Experten-Design innerhalb des Denoising-Prozesses der Diffusionsmodelle. Während ein Experte das grobe Szenenlayout gestaltet, verfeinert der andere Details wie Texturen und Oberflächen.

Die Modelle sind nicht nur technisch leistungsstark, sondern auch visuell anspruchsvoll. Trainiert mit sorgfältig ausgewählten Daten, die sich an filmischer Ästhetik orientieren, bieten sie eine Kontrolle über wichtige Gestaltungselemente:

Lichtstimmung und Beleuchtung
Farbtöne und Komposition
Kameraperspektiven und Brennweiten
Bildgrößen und Tageszeiten

Das integrierte Prompt-System ermöglicht es, diese Dimensionen gezielt anzusprechen – ganz im Sinne der kreativen Vision der Nutzerinnen und Nutzer.

Ein klarer Fortschritt gegenüber Vorgängerversionen zeigt sich bei der Darstellung komplexer Bewegungen. Gesichtsausdrücke, Gesten oder sportliche Abläufe werden deutlich realistischer und flüssiger umgesetzt – inklusive physikalisch korrektem Verhalten der Elemente in der Szene.

Kompaktes Modell für den Alltagseinsatz

Mit Wan2.2-TI2V-5B stellt Alibaba außerdem ein Modell vor, das speziell auf Effizienz und Skalierbarkeit ausgelegt ist. Es basiert auf einer hochkomprimierten 3D-VAE-Architektur. So lässt sich ein fünfsekündiges Video in 720p-Auflösung auf einer einzigen GPU in wenigen Minuten erzeugen – ein großer Schritt für Anwendungen im Consumer-Bereich.

Open Source als Strategie

Die Veröffentlichung auf Hugging Face, GitHub und ModelScope (Alibaba Cloud) macht deutlich: Alibaba setzt konsequent auf Transparenz und Zusammenarbeit in der globalen KI-Community. Bereits frühere Versionen (Wan2.1 und VACE) wurden frei zugänglich gemacht – mit inzwischen über 5,4 Millionen Downloads ein Zeichen für das große Interesse und Vertrauen der Entwicklergemeinde.

Videos in Kinoqualität: Alibabas Open-Source-KI Wan2.2

Drei Modelle: Hochwertige Videos auf Knopfdruck

Fortschritt durch MoE: Mehr Leistung bei weniger Rechenaufwand

Kompaktes Modell für den Alltagseinsatz

Open Source als Strategie

Pauline

Dornig

Artikel zu diesem Thema

Weitere Artikel

Meistgelesene Artikel

Amazon-Störung: Checkout in Europa stundenlang nicht erreichbar

X zum zweiten Mal heute down: “Something went wrong” weltweit

OpenAI zeigt: So werden Sie zur Job-Karikatur in ChatGPT

OpenClaw: Warum sich ein Enterprise-Albtraum anbahnt

ChatGPT hat die Welt verändert, OpenClaw (Moltbot) krempelt sie um

IT Verlag

Wichtige Links

Kontakt