MotionClone:無需訓練,一鍵克隆視頻運動
AIxiv專欄是機器之心發佈學術、技術內容的欄目。過去數年,機器之心AIxiv專欄接收報道了2000多篇內容,覆蓋全球各大高校與企業的頂級實驗室,有效促進了學術交流與傳播。如果您有優秀的工作想要分享,歡迎投稿或者聯繫報道。投稿郵箱:liyazhou@jiqizhixin.com;zhaoyunfeng@jiqizhixin.com
無需訓練或微調,在提示詞指定的新場景中克隆參考視頻的運動,無論是全局的相機運動還是局部的肢體運動都可以一鍵搞定。
論文:https://arxiv.org/abs/2406.05338
主頁:https://bujiazi.github.io/motionclone.github.io/
代碼:https://github.com/Bujiazi/MotionClone
本文提出了名爲 MotionClone 的新框架,給定任意的參考視頻,能夠在不進行模型訓練或微調的情況下提取對應的運動信息;這種運動信息可以直接和文本提示一起指導新視頻的生成,實現具有定製化運動的文本生成視頻 (text2video)。
相較於先前的研究,MotionClone 具備如下的優點:
無需訓練或微調:先前的方法通常需要訓練模型來編碼運動線索或微調視頻擴散模型來擬合特定運動模式。訓練模型編碼運動線索對於訓練域之外的運動泛化能力較差,而微調已有的視頻生成模型可能會損害基模型潛在的視頻生成質量。MotionClone 無需引入任何額外的訓練或微調,在提高運動泛化能力的同時最大程度保留了基座模型的生成質量。
更高的運動質量:已有的開源文生視頻模型很難生成大幅度的合理的運動,MotionClone 通過引入主成分時序注意力運動指導在大幅加強生成視頻運動幅度的同時有效保障了運動的合理性。
更好的空間位置關係:爲了避免直接的運動克隆可能導致的空間語義錯配,MotionClone 提出了基於交叉注意力掩碼的空間語義信息指導來輔助空間語義信息和時空運動信息的正確耦合。
時序注意力模塊中的運動信息
在文本生視頻工作中,時序注意力模塊 (Temporal Attention) 被廣泛用於建模視頻的幀間相關性。由於時序注意力模塊中的注意力分數 (attention map score) 表徵了幀間的相關性,因此一個直觀的想法是是否可以通過約束完全一致的注意力分數來複制的幀間聯繫從而實現運動克隆。
然而,實驗發現直接複製完整的注意力圖 (plain control) 只能實現非常粗糙的運動遷移,這是因爲注意力中大多數權重對應的是噪聲或者非常細微的運動信息,這些信息一方面難以和文本指定的新場景相結合,另一方面掩蓋了潛在的有效的運動指導。
爲了解決這一問題,MotionClone 引入了主成分時序注意力運動指導機制 (Primary temporal-attention guidance),僅利用時序注意力中的主要成分來對視頻生成進行稀疏指導,從而過濾噪聲和細微運動信息的負面影響,實現運動在文本指定的新場景下的有效克隆。
空間語義修正
主成分時序注意力運動指導能夠實現對參考視頻的運動克隆,但是無法確保運動的主體和用戶意圖相一致,這會降低視頻生成的質量,在某些情況下甚至會導致運動主體的錯位。
爲了解決上述問題,MotionClone 引入空間語義引導機制 (Location-aware semantic guidance),通過交叉注意力掩碼(Cross Attention Mask)劃分視頻的前後背景區域,通過分別約束視頻前後背景的語義信息來保障空間語義的合理佈局,促進時序運動和空間語義的正確耦合。
MotionClone 實現細節
DDIM 反轉:MotionClone 採用 DDIM Inversion 將輸入的參考視頻反轉至 latent space 中,實現對參考視頻的時序注意力主成分提取。
引導階段:在每次去噪時,MotionClone 同時引入了主成分時序注意力運動指導和空間語義信息指導,它們協同運行,爲可控視頻生成提供全面的運動和語義引導。
高斯掩碼:在空間語義引導機制中,採用高斯核函數對交叉注意力掩碼進行模糊處理,消除潛在的結構信息影響。
DAVIS 數據集中的 30 個視頻被用於測試。實驗結果表明 MotionClone 實現了在文本契合度、時序一致性以及多項用戶調研指標上的顯著提升,超越了以往的運動遷移方法,具體結果如下表所示。
MotionClone 與已有運動遷移方法的生成結果對比如下圖所示,可見 MotionClone 具有領先的性能。
綜上所述,MotionClone 是一種新的運動遷移框架,能夠在無需訓練或微調的情況下,有效地將參考視頻中的運動克隆到用戶給定提示詞指定的新場景,爲已有的文生視頻模型提供了即插即用的運動定製化方案。
MotionClone 在保留已有基座模型的生成質量的基礎上引入高效的主成分運動信息指導和空間語義引導,在保障和文本的語義對齊能力的同時顯著提高了和參考視頻的運動一致性,實現高質量的可控的視頻生成。
此外,MotionClone 能夠直接適配豐富的社區模型實現多樣化的視頻生成,具備極高的擴展性。