阿里萬相視頻生成開源大模型是阿里云于2025年2月25日晚間宣布開源的視覺生成基座模型萬相2.1(Wan),以下是其具體介紹:
開源信息及平臺
- 開源時間:2025年2月25日晚間。
- 開源協(xié)議:采用最寬松的Apache 2.0協(xié)議。
- 下載平臺:全球開發(fā)者可在Github、HuggingFace和魔搭社區(qū)下載體驗。
模型參數(shù)規(guī)格
- 14B版本:在指令遵循、復雜運動生成、物理建模、文字視頻生成等方面表現(xiàn)突出,在權威評測集Vbench中,以總分86.22%的成績超越Sora、Luma、Pika等國內(nèi)外模型,位居榜首。
- 1.3B版本:測試結(jié)果不僅超過了更大尺寸的開源模型,甚至還接近部分閉源模型,能在消費級顯卡運行,僅需8.2GB顯存就可以生成480P視頻,適用于二次模型開發(fā)和學術研究。
技術架構與優(yōu)勢
- 算法設計:基于主流DiT架構和線性噪聲軌跡Flow Matching范式,研發(fā)了高效的因果3D VAE、可擴展的預訓練策略等。以3D VAE為例,為了高效支持任意長度視頻的編碼和解碼,萬相在3D VAE的因果卷積模塊中實現(xiàn)了特征緩存機制,從而代替直接對長視頻端到端的編解碼過程,實現(xiàn)了無限長1080P視頻的高效編解碼。此外,通過將空間降采樣壓縮提前,在不損失性能的情況下進一步減少了29%的推理時內(nèi)存占用。
- 性能表現(xiàn):在運動質(zhì)量、視覺質(zhì)量、風格和多目標等14個主要維度和26個子維度測試中,萬相均達到了業(yè)界領先表現(xiàn),并且斬獲5項第一。
- 功能特點:支持基于文本生成視頻和圖像生成視頻任務,能夠精準模擬現(xiàn)實世界的物理規(guī)律,如雨滴濺起水花、冰刀劃開冰渣等,且在處理復雜運動時能保持肢體的協(xié)調(diào)性和運動軌跡的真實性。
應用場景
- 影視創(chuàng)作:可以生成影視級高清視頻,輕松生成超酷炫的電影級片頭,降低影視特效制作成本。
- 廣告設計:提高廣告創(chuàng)意效率,實現(xiàn)一鍵生成動態(tài)字幕、智能運鏡等功能。
- 電商直播:降低商品展示視頻制作成本,支持中英文混合特效,提升營銷效果。
源地址:
- Github:https://github.com/Wan-Video
- HuggingFace:https://huggingface.co/Wan-AI
- 魔搭社區(qū):https://modelscope.cn/organization/Wan-AI
