香港文匯報訊(記者 周曉菁)阿里巴巴今開源視頻生成模型Wan2.2,預料其將顯著提升創作者與開發者一鍵生成電影級視頻的能力。相較Wan2.1,Wan2.2模型訓練數據量大幅擴充,其中圖像數據增加65.6%,視頻數據增長83.2%,顯著提升複雜場景生成能力與藝術表現多樣性。
Wan2.2系列包含文生視頻模型Wan2.2-T2V-A14B、圖生視頻模型Wan2.2-I2V-A14B,以及統一視頻生成模型Wan2.2-TI2V-5B。該模型可在單一框架內同時處理文生視頻與圖生視頻任務。Wan2.2透過電影啟發的美學控制系統,將光影、明暗、構圖、色調等維度進行系統化分類,使模型能精準解讀並呈現用户给定的prompt(提示詞),實現細緻的美學精調。
據悉,基於混合專家(Mixture-of-Experts, MoE)架構架構並經過精選美學數據訓練,Wan2.2-T2V-A14B與Wan2.2-I2V-A14B能夠生成具有電影級品質的視頻,讓創作者精準控制光影、時段、色調、鏡頭角度、畫幅尺寸、構圖、焦距等關鍵維度。這兩款MoE模型在呈現複雜動作方面亦有顯著提升,包括生動的面部表情、動態手勢與精細運動動作。此外,透過強化指令,模型能夠遵循物理規律,實現更逼真的畫面表現。
目前,Wan2.2系列模型現已於Hugging Face、GitHub及阿里雲開源社區ModelScope開放下載。作為全球開源生態的重要貢獻者,阿里巴巴曾於2025年2月開源四款Wan2.1模型,並於同年5月發布Wan2.1-VACE(多合一視頻編輯全功能模型)。截至目前,這些模型在Hugging Face與ModelScope的總下載量已突破540萬次。
評論