Kompaktes Modell für den Alltagseinsatz

Videos in Kinoqualität: Alibabas Open-Source-KI Wan2.2

Alibaba
Bildquelle: Tao Jiang/Shutterstock.com

Mit der Veröffentlichung der Wan2.2-Serie hebt der chinesische Tech-Konzern Alibaba die Videogenerierung durch Künstliche Intelligenz auf ein neues Niveau.

Die neuen Modelle, die ab sofort als Open Source zur Verfügung stehen, kombinieren hochentwickelte Technik mit ästhetischem Feinsinn – und das bei deutlich verbesserter Effizienz.

Anzeige

Drei Modelle: Hochwertige Videos auf Knopfdruck

Die Wan2.2-Serie besteht aus drei KI-Modellen mit unterschiedlichen Schwerpunkten:

  • Wan2.2-T2V-A14B für die Umwandlung von Text in Video,
  • Wan2.2-I2V-A14B zur Erstellung von Videos aus Bildern und
  • Wan2.2-TI2V-5B, ein Hybridmodell, das beide Ansätze in einem System vereint.

Alle drei Modelle wurden unter dem Leitbild entwickelt, kreative Prozesse zu vereinfachen – ohne dabei Kompromisse bei Qualität oder Kontrolle einzugehen.

Fortschritt durch MoE: Mehr Leistung bei weniger Rechenaufwand

Im Zentrum der Modelle steht die sogenannte MoE-Architektur (Mixture-of-Experts). Sie sorgt dafür, dass bei jedem Rechenschritt nur ein Teil der gesamten Parameter aktiviert wird – konkret 14 von 27 Milliarden. Das Ergebnis: eine Reduktion des Rechenaufwands um bis zu 50 Prozent bei gleichbleibend hoher Qualität.

Anzeige

Ein weiteres technisches Highlight ist das Zwei-Experten-Design innerhalb des Denoising-Prozesses der Diffusionsmodelle. Während ein Experte das grobe Szenenlayout gestaltet, verfeinert der andere Details wie Texturen und Oberflächen.

Die Modelle sind nicht nur technisch leistungsstark, sondern auch visuell anspruchsvoll. Trainiert mit sorgfältig ausgewählten Daten, die sich an filmischer Ästhetik orientieren, bieten sie eine Kontrolle über wichtige Gestaltungselemente:

  • Lichtstimmung und Beleuchtung
  • Farbtöne und Komposition
  • Kameraperspektiven und Brennweiten
  • Bildgrößen und Tageszeiten

Das integrierte Prompt-System ermöglicht es, diese Dimensionen gezielt anzusprechen – ganz im Sinne der kreativen Vision der Nutzerinnen und Nutzer.

Ein klarer Fortschritt gegenüber Vorgängerversionen zeigt sich bei der Darstellung komplexer Bewegungen. Gesichtsausdrücke, Gesten oder sportliche Abläufe werden deutlich realistischer und flüssiger umgesetzt – inklusive physikalisch korrektem Verhalten der Elemente in der Szene.

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.

Kompaktes Modell für den Alltagseinsatz

Mit Wan2.2-TI2V-5B stellt Alibaba außerdem ein Modell vor, das speziell auf Effizienz und Skalierbarkeit ausgelegt ist. Es basiert auf einer hochkomprimierten 3D-VAE-Architektur. So lässt sich ein fünfsekündiges Video in 720p-Auflösung auf einer einzigen GPU in wenigen Minuten erzeugen – ein großer Schritt für Anwendungen im Consumer-Bereich.

Open Source als Strategie

Die Veröffentlichung auf Hugging Face, GitHub und ModelScope (Alibaba Cloud) macht deutlich: Alibaba setzt konsequent auf Transparenz und Zusammenarbeit in der globalen KI-Community. Bereits frühere Versionen (Wan2.1 und VACE) wurden frei zugänglich gemacht – mit inzwischen über 5,4 Millionen Downloads ein Zeichen für das große Interesse und Vertrauen der Entwicklergemeinde.

Pauline Dornig

Pauline

Dornig

Online-Redakteurin

IT Verlag GmbH

Pauline Dornig verstärkt seit Mai 2020 das Team des IT Verlags als Online-Redakteurin. (pd)
Anzeige

Artikel zu diesem Thema

Weitere Artikel

Newsletter
Newsletter Box

Mit Klick auf den Button "Jetzt Anmelden" stimme ich der Datenschutzerklärung zu.