對標Sora、“國產最強”視頻大模型Vidu,真有那麼強嗎?
大模型領域最熱話題又重新回到視頻模型上,因爲一家創業公司被認爲做出了“最強國產Sora”。
4月27日,在中關村論壇未來人工智能先鋒論壇上,生數科技聯合清華大學發佈了具有“長時長、高一致性、高動態性”性能標籤的視頻大模型Vidu,可根據文本描述直接生成長達16秒、分辨率達1080P的高清視頻內容。
高一致性是團隊着重強調的特點。清華大學人工智能研究院副院長、生數科技首席科學家朱軍表示,當前國內視頻大模型的生成視頻時長大多爲4秒左右,Vidu則可實現一次性生成16秒的視頻時長。同時,視頻畫面能保持連貫流暢,隨着鏡頭移動,人物和場景在時間、空間中能保持高一致性。
在動態性方面,Vidu的動態鏡頭在推、拉、移之外,開始涉及一段畫面中遠景、近景、中景、特寫等鏡頭的切換,以及直接生成長鏡頭、追焦和轉場效果。物理規律方面,朱軍介紹稱,Vidu可以模擬真實物理世界中細節複雜且符合物理規律的場景,例如合理的光影效果、細膩的人物表情等,還可生成具有深度和複雜性的超現實主義內容(例如“戴珍珠耳環的貓”)。
在生數科技放出的視頻物料中,的確有不少用戶反饋認可其時間與空間上的一致性表現,而這是視頻模型在長時長內容生成上需要克服的關鍵問題。
一致性表現不能獨立於視頻時長以外單獨討論。目前,Vidu對外公佈的時長上限是16秒,Sora最大時長則是1分鐘。今年2月Sora推出後,生數科技內部成立了攻堅小組,加快原本視頻方向的研發進度。3月,內部實現8秒的視頻生成,並在4月提升到16秒生成,但團隊沒有公佈更多技術突破的細節。
從已有信息來看,技術路線上,Vidu採用的是自研U-ViT架構,與Sora一樣是Diffusion和Transformer的融合架構。這種架構不採用插幀的多步驟處理方式來生成視頻,而是通過單一步驟“端到端”直接生成內容,從文本到視頻的轉換是直接、連續的。
這意味着,Vidu同樣繞不開模型訓練的Scaling Law(規模法則),需要不斷堆積更大參數和更多算力。
算力限制之外,一名有多模態大模型訓練經驗的創業者對界面新聞記者表示,生成數據的差距是國內視頻大模型與Sora之間的重要差別。視頻大模型需要大量的數據收集,其路線是一個逐漸細化和確定的過程。從實現上來講,這是一個確定性事件,但需要一定時間。
因此,儘管生數科技在兩個月內有如此提升已經是算法和工程能力上的突破,但在同等性能表現下追平Sora的1分鐘時長,真正做到全面對標Sora,必然還有較長的一段路要走——至少不是“兩倍於兩個月”這樣簡單的線性估算。
“16秒跟1分鐘,看起來大概差四倍,但中間的誤差累計到後面可能不只是四倍的算力或者工程能力能彌補的。”一名大模型領域投資人對界面新聞記者表示。
他同時指出,其實Vidu和Sora一樣,目前釋放的素材並不足夠多,從其發佈的物料來看一致性表現的確不錯,但還是很難做出更準確的判斷。
在這一視角下,Vidu與Sora可直接比較的維度或許更多在於以鏡頭語言爲代表的動態性,以及對物理世界規律的理解與模擬能力等方面。而長時長與一致性構成的核心性能,還需要等待後續版本迭代做進一步比較。