Meta又又又推出全新可控圖像插值生成視頻方法MarDini,效果真不錯~

近日Meta 推出了MarDini,這是一種新的視頻生成模型,它結合了掩蔽自迴歸(MAR)技術和一種輕量的DiT擴散模型結合的優勢,因此叫它MarDini。MarDini是一種靈活、高效且可擴展的視頻生成模型。它能夠根據需求執行多種任務,例如將圖像轉化爲視頻、擴展視頻和進行視頻插值,而不依賴於圖像預訓練。(鏈接在文章底部)

MarDini可以根據不同的需求生成視頻,比如填補缺失的中間幀,或者將一張圖片轉換成視頻。 這個模型的特別之處在於,它可以處理不同的掩蔽方式,比如只掩蔽部分幀。通過調節掩蔽比例,MarDini可以從簡單的插值任務逐步過渡到完整視頻生成。 爲了讓處理更加高效,MarDini的設計將大部分計算資源用在低分辨率的模型上,這樣即使是計算複雜的時空分析 也能快速運行,但它的生成速度和質量可以媲美那些成本更高的高級模型。

01 技術原理

用於視頻生成。MarDini模型將視頻生成分解爲兩個子任務—時間建模和空間建模——由不同的網絡處理,並基於以下兩個原則採用不對稱設計:

1. MAR處理長時間範圍的建模,而DM專注於詳細的空間建模。

2. MAR在低分辨率下使用更多參數,而DM在高分辨率下使用較少參數。

MarDini的訓練流程概述如下:首先,針對未被掩蔽的幀計算潛在表示,這些表示作爲生成過程的條件信號。一方面,有一個規劃模型,通過自迴歸地編碼來自未掩蔽潛在輸入的低分辨率全局條件信號。另一方面,規劃信號通過交叉注意力層輸入到基於擴散的生成模型中。

此外,擴散模型還接收高分辨率的輸入條件,從而實現生成時保持一致的時間結構,並能夠直接關注未掩蔽幀的細節。MarDini通過掩蔽幀級別的擴散損失進行端到端訓練。

MarDini採用了變換器架構,分別用於規劃模型和生成模型,其中生成模型使用了DiT風格的模塊,而規劃模型則使用了Llama風格的模塊。 設置了L1 ≫ L2,其中L1和L2分別指規劃模型和生成模型的層數。

02 實際效果

MarDini通過將一幀圖像作爲條件輸入,成功生成了平滑的2秒視頻,展示了其在圖像轉視頻生成中的強大能力。

MarDini通過從5幀參考視頻生成2秒的擴展,成功地展示了其視頻擴展能力。

MarDini利用邊界幀進行中間幀生成,實現了視頻插值,並能夠製作無縫循環視頻。

MarDini通過自迴歸生成慢動作視頻,展示了其在長時間視頻生成中的強大潛力。

MarDini展現出在3D視圖合成中的潛力,能夠生成一致的3D視圖,儘管未進行專門的訓練。

歡迎交流~,帶你學習AI,瞭解AI