
[Alibaba]
二月底,阿里巴巴開源了四款萬相2.1系列模型,上個月開源支持首尾幀視頻生成的模型。截至目前,上述模型在開源社區Hugging Face和ModelScope下載量超過330萬次。
其中萬相2.1(Wan2.1)T2V版本模型,專門用於文本到視頻生成,開源僅6天登上模型熱榜、是近期全球最受歡迎大模型。
阿里巴巴在 Wan2.1-T2V基礎進行擴充,再開源視頻生成與編輯模型 Wan2.1-VACE(Video All-in-one Creation and Editing),整合多項視頻處理功能於單一模型中,簡化視頻創作流程。
同一模型已可同時支援文生視頻、圖像參考視頻生成、視頻重繪、視頻局部編輯、視頻背景延展以及視頻時長延展等全系列基礎生成和編輯。Wan2.1-VACE也是首個提供視頻生成與編輯統一解決方案的開源模型,支持基於文本、圖像和視頻的多模態輸入進行視頻生成,提供全面的視頻編輯功能,包括參考圖像或參考幀視頻生成、視頻轉繪、視頻局部編輯、畫面和時長延展等。
用戶可根據圖像樣本生成包含特定主體視頻,為靜態圖像添加自然運動效果使圖像「活起來」,還可使用姿態遷移、運動控制、深度控制和著色等高級視頻重繪。不過Wan2.1-VACE模型還支持在視頻局部區域添加、修改或刪除內容,不影響區域外的內容,擴展視頻邊界,智能填充內容以加強視覺體驗。

Wan2.1-VACE讓用戶同時結合多種功能,通過統一接口「視頻條件單元」(Video Condition Unit, VCU),支持對文本、圖像、視頻和蒙版(Mask)等多模態輸入進行統一處理。模型「上下文適配」(Context Adapter)結構,透過使用時空維度的形式化表徵來注入各種任務概念,處理各類視頻合成任務。Mask是用於指定圖像或視頻中特定區域工具,通常用0/1二值信號表示,套用在指定要編輯的局部區域,例如對視頻中替換、刪除或修改某個物體,通過Mask精准框選物體區域,模型會僅對Mask選定的區域進行處理,其他區域保持不變。
用戶可將靜態圖像轉為視頻,通過規定運動軌跡控制物體移動,也可替換指定人物或物體;為角色添加動畫效果和控制姿勢;豎向圖像橫向擴展為橫版視頻,同時添加新元素。
VCU 輸入的幀序列,分為可變幀序列(需要根據提示重新生成的內容)和不變幀序列(需要原封不動保留RGB 圖元),分別進行編碼處理,生成視頻更靈活,更細緻地控制視頻中哪些部分不變,哪部分重新生成,確保視頻效果合符要求。Wan2.1-VACE可廣泛應用於社交媒體短視頻製作、廣告內容創作、影視後期處理,生成教育培訓視頻等。
Wan2.1-VACE有助快速創建符合需求的高質量片段和動畫,阿里巴巴Wan2.1-VACE模型提供140億參數和13億參數兩個版本,已在Hugging Face、GitHub以及阿里雲開源社區ModelScope上發佈,可免費下載和使用。