☰

Meta又又又推出全新可控圖像插值生成視頻方法MarDini，效果真不錯～

近日Meta 推出了MarDini，這是一種新的視頻生成模型，它結合了掩蔽自迴歸（MAR）技術和一種輕量的DiT擴散模型結合的優勢，因此叫它MarDini。MarDini是一種靈活、高效且可擴展的視頻生成模型。它能夠根據需求執行多種任務，例如將圖像轉化爲視頻、擴展視頻和進行視頻插值，而不依賴於圖像預訓練。（鏈接在文章底部）

MarDini可以根據不同的需求生成視頻，比如填補缺失的中間幀，或者將一張圖片轉換成視頻。這個模型的特別之處在於，它可以處理不同的掩蔽方式，比如只掩蔽部分幀。通過調節掩蔽比例，MarDini可以從簡單的插值任務逐步過渡到完整視頻生成。爲了讓處理更加高效，MarDini的設計將大部分計算資源用在低分辨率的模型上，這樣即使是計算複雜的時空分析也能快速運行，但它的生成速度和質量可以媲美那些成本更高的高級模型。

01 技術原理

用於視頻生成。MarDini模型將視頻生成分解爲兩個子任務—時間建模和空間建模——由不同的網絡處理，並基於以下兩個原則採用不對稱設計：

1. MAR處理長時間範圍的建模，而DM專注於詳細的空間建模。

2. MAR在低分辨率下使用更多參數，而DM在高分辨率下使用較少參數。

MarDini的訓練流程概述如下：首先，針對未被掩蔽的幀計算潛在表示，這些表示作爲生成過程的條件信號。一方面，有一個規劃模型，通過自迴歸地編碼來自未掩蔽潛在輸入的低分辨率全局條件信號。另一方面，規劃信號通過交叉注意力層輸入到基於擴散的生成模型中。

此外，擴散模型還接收高分辨率的輸入條件，從而實現生成時保持一致的時間結構，並能夠直接關注未掩蔽幀的細節。MarDini通過掩蔽幀級別的擴散損失進行端到端訓練。

MarDini採用了變換器架構，分別用於規劃模型和生成模型，其中生成模型使用了DiT風格的模塊，而規劃模型則使用了Llama風格的模塊。設置了L1 ≫ L2，其中L1和L2分別指規劃模型和生成模型的層數。

02 實際效果

MarDini通過將一幀圖像作爲條件輸入，成功生成了平滑的2秒視頻，展示了其在圖像轉視頻生成中的強大能力。

MarDini通過從5幀參考視頻生成2秒的擴展，成功地展示了其視頻擴展能力。

MarDini利用邊界幀進行中間幀生成，實現了視頻插值，並能夠製作無縫循環視頻。

MarDini通過自迴歸生成慢動作視頻，展示了其在長時間視頻生成中的強大潛力。

MarDini展現出在3D視圖合成中的潛力，能夠生成一致的3D視圖，儘管未進行專門的訓練。

歡迎交流～，帶你學習AI，瞭解AI

Meta又又又推出全新可控圖像插值生成視頻方法MarDini，效果真不錯～

相關資訊