
綜合中媒報導,阿里巴巴於 25 日晚間,全面開源旗下影片生成模型萬相 2.1 (Wan2.1)模型。此次開源採用最寬鬆的 Apache 2.0 協議,14B 和 1.3B 兩個參數規格的全部推理代碼和權重全部開源,同時支援文生影片和圖生影片任務,全球開發者可在 Github、HuggingFace 和魔搭社區下載體驗。
2025年1月,阿里巴巴旗下萬相剛宣布推出2.1版本模型升級,影片生成、圖像生成兩大能力均獲得提升。在影片生成方面,萬相2.1透過自研的高效VAE和DiT架構增強了時空上下文建模能力,支援無限長1080P影片的高效編解碼,首次實現了中文文字影片生成功能,登上VBench榜單第一。
(Source:阿里巴巴)
據了解,14B萬相模型在指令遵循、複雜運動生成、物理建模、文字影片生成等方面表現突出,在評測集VBench中,萬相2.1以總分86.22%的成績超越Sora、Luma、Pika等中國國內外模型,位列榜首;1.3B版本測試結果不僅超過了更大尺寸的開源模型,甚至還接近部分閉源模型,同時能在消費級顯卡運行,號稱「僅需8.2GB視訊記憶體就可生成480P影片」,適用於二次模型開發及學術研究。
▲ 生成影片的文字提示詞:一名男子在跳台上做專業跳水動作。全景平拍鏡頭中,他穿著紅色泳褲,身體呈倒立狀態,雙臂伸展,雙腿併攏。鏡頭下移,他跳入水中,濺起水花。背景中是藍色的泳池。
隨著以萬相為代表的AI影片生成工具持續更迭,未來其向多種應用場景的滲透有望加速。山西證券指出,應用層可關注創意、設計、教育等多模態,尤其是影片生成相關的領域,另一方面,影片生成模型對算力需求相較文本顯著提升,可重點關注AI算力相關領域。