Mit der Veröffentlichung der Wan2.2-Serie hebt der chinesische Tech-Konzern Alibaba die Videogenerierung durch Künstliche Intelligenz auf ein neues Niveau.
Die neuen Modelle, die ab sofort als Open Source zur Verfügung stehen, kombinieren hochentwickelte Technik mit ästhetischem Feinsinn – und das bei deutlich verbesserter Effizienz.
Drei Modelle: Hochwertige Videos auf Knopfdruck
Die Wan2.2-Serie besteht aus drei KI-Modellen mit unterschiedlichen Schwerpunkten:
- Wan2.2-T2V-A14B für die Umwandlung von Text in Video,
- Wan2.2-I2V-A14B zur Erstellung von Videos aus Bildern und
- Wan2.2-TI2V-5B, ein Hybridmodell, das beide Ansätze in einem System vereint.
Alle drei Modelle wurden unter dem Leitbild entwickelt, kreative Prozesse zu vereinfachen – ohne dabei Kompromisse bei Qualität oder Kontrolle einzugehen.
Fortschritt durch MoE: Mehr Leistung bei weniger Rechenaufwand
Im Zentrum der Modelle steht die sogenannte MoE-Architektur (Mixture-of-Experts). Sie sorgt dafür, dass bei jedem Rechenschritt nur ein Teil der gesamten Parameter aktiviert wird – konkret 14 von 27 Milliarden. Das Ergebnis: eine Reduktion des Rechenaufwands um bis zu 50 Prozent bei gleichbleibend hoher Qualität.
Ein weiteres technisches Highlight ist das Zwei-Experten-Design innerhalb des Denoising-Prozesses der Diffusionsmodelle. Während ein Experte das grobe Szenenlayout gestaltet, verfeinert der andere Details wie Texturen und Oberflächen.
Die Modelle sind nicht nur technisch leistungsstark, sondern auch visuell anspruchsvoll. Trainiert mit sorgfältig ausgewählten Daten, die sich an filmischer Ästhetik orientieren, bieten sie eine Kontrolle über wichtige Gestaltungselemente:
- Lichtstimmung und Beleuchtung
- Farbtöne und Komposition
- Kameraperspektiven und Brennweiten
- Bildgrößen und Tageszeiten
Das integrierte Prompt-System ermöglicht es, diese Dimensionen gezielt anzusprechen – ganz im Sinne der kreativen Vision der Nutzerinnen und Nutzer.
Ein klarer Fortschritt gegenüber Vorgängerversionen zeigt sich bei der Darstellung komplexer Bewegungen. Gesichtsausdrücke, Gesten oder sportliche Abläufe werden deutlich realistischer und flüssiger umgesetzt – inklusive physikalisch korrektem Verhalten der Elemente in der Szene.
Kompaktes Modell für den Alltagseinsatz
Mit Wan2.2-TI2V-5B stellt Alibaba außerdem ein Modell vor, das speziell auf Effizienz und Skalierbarkeit ausgelegt ist. Es basiert auf einer hochkomprimierten 3D-VAE-Architektur. So lässt sich ein fünfsekündiges Video in 720p-Auflösung auf einer einzigen GPU in wenigen Minuten erzeugen – ein großer Schritt für Anwendungen im Consumer-Bereich.
Open Source als Strategie
Die Veröffentlichung auf Hugging Face, GitHub und ModelScope (Alibaba Cloud) macht deutlich: Alibaba setzt konsequent auf Transparenz und Zusammenarbeit in der globalen KI-Community. Bereits frühere Versionen (Wan2.1 und VACE) wurden frei zugänglich gemacht – mit inzwischen über 5,4 Millionen Downloads ein Zeichen für das große Interesse und Vertrauen der Entwicklergemeinde.