☰

Google DeepMind 推出文生視頻模型定製通用框架 Still-Moving｜大模型週報

本週值得關注的大模型 / AIGC 前沿研究：

Google DeepMind 推出文生視頻模型定製通用框架 Still-Moving

Meta 新研究：將 System 2 蒸餾到 System 1 中

Google DeepMind 提出百萬混合專家模型

蘋果團隊推出兼容 LLM 演進的模型更新策略 MUSCLE

Make-An-Agent：輕鬆爲一個智能體生成控制策略

北航、美團團隊推出首個視頻擴散模型訓練後量化策略 QVD

上海 AI Lab 提出 LLM 長上下文評估框架 NeedleBench

DiT-MoE：將擴散 Transformer 擴展至 160 億參數

VD3D：首個基於 transformer 的視頻擴散模型相機控制

MAVIS：首個針對 MLLM 的數學視覺指令微調範式

Lynx：一個開源的幻覺評估模型

想要第一時間獲取每日最新大模型熱門論文？

點擊“閱讀原文”獲取「2024 必讀大模型論文」合集（包括日報、月報，持續更新中～）。

Google DeepMind 推出文生視頻模型定製通用框架 Still-Moving

近年來，定製化文生圖（T2I）模型取得了巨大的進展，特別是在個性化、風格化和條件生成等領域。然而，將這一進展擴展到視頻生成仍處於起步階段，主要是由於缺乏定製化視頻數據。

在這項工作中，來自 Google DeepMind 的研究團隊及其合作者，提出了一個新型文生視頻（T2V）模型定製通用框架——Still-Moving，其無需任何定製化視頻數據。該框架適用於一種顯著的 T2V 設計，即視頻模型建立在 T2I 模型之上。團隊假設可以訪問一個僅在靜態圖像數據上訓練的定製化 T2I 模型（例如，使用 DreamBooth 或 StyleDrop）。直接將定製化 T2I 模型的權重插入 T2V 模型中，通常會導致顯著的僞影或對定製化數據的不足遵循。

爲了克服這個問題，團隊訓練了輕量級的空間適配器，以調整由注入的 T2I 層生成的特徵。重要的是，團隊的適配器是在“凍結視頻”（即重複圖像）上訓練的，這些凍結視頻是從定製化 T2I 模型生成的圖像樣本構建的。這個訓練過程由一個新穎的運動適配器模塊支持，允許他們在這種靜態視頻上訓練，同時保留視頻模型的運動先驗。在測試時，研究團隊去除運動適配器模塊，只保留訓練好的空間適配器。這恢復了 T2V 模型的運動先驗，同時遵循定製化 T2I 模型的空間先驗。

研究團隊在個性化、風格化和條件生成等多種任務上展示了他們方法的有效性。在所有評估的場景中，研究團隊的方法無縫地將定製化 T2I 模型的空間先驗與由 T2V 模型提供的運動先驗結合起來。

論文鏈接：https://arxiv.org/abs/2407.08674項目地址：https://still-moving.github.io/

Meta 新研究：將 System 2 蒸餾到 System 1 中

大語言模型（LLM）在推理過程中可以花費額外的計算資源來生成中間思路，從而幫助產生更好的最終響應。自從思維鏈（CoT）提出以來，許多此類的 System 2 技術相繼出現，比如重新表述和響應（Rephrase and Respond）、System 2 注意力（System 2 Attention）和分支-解決-合併（Branch-Solve-Merge）。

在這項工作中，Meta FAIR 團隊研究了自監督方法，將 System 2 技術中的高質量輸出“編譯”（蒸餾）回 LLM 生成的內容中，而無需中間推理 token 序列，因爲這些推理已被蒸餾到 System 1 中。

研究團隊展示了幾種這樣的技術可以成功蒸餾，結果相比原始 System 1 性能有所改善，同時推理成本比 System 2 更低。團隊認爲，System 2 蒸餾將成爲未來可持續學習的 AI 系統的重要特性，使它們能夠將 System 2 的能力集中在尚不能很好完成的推理任務上。

論文鏈接：https://arxiv.org/abs/2407.06023

Google DeepMind 提出百萬混合專家模型

標準 Transformer 架構中的前饋（FFW）層隨着隱藏層寬度的增加會導致計算成本和激活內存線性增加。稀疏混合專家（MoE）架構通過將模型大小與計算成本分離，已成爲解決這一問題的可行方法。最近發現的細粒度 MoE 縮放定律表明，更高的粒度可以帶來更好的性能。然而，由於計算和優化的挑戰，現有的 MoE 模型僅限於少量專家。

爲此，Google DeepMind 研究團隊推出了 PEER（參數高效專家檢索），這是一種利用 product key 技術從大量小專家（超過一百萬）中進行稀疏檢索的新型層設計。在語言建模任務上的實驗表明，PEER 層在性能-計算權衡方面優於密集的 FFW 和粗粒度 MoE。通過高效利用大量專家，PEER 解鎖了在保持計算效率的同時進一步擴展 Transformer 模型的潛力。

論文鏈接：https://arxiv.org/abs/2407.04153

蘋果團隊推出兼容 LLM 演進的模型更新策略 MUSCLE

爲提高模型性能，大語言模型（LLM）經常會因數據或架構變化而更新。在更新模型時，開發人員通常側重於提高整體性能指標，而不太重視與先前模型版本的兼容性。然而，用戶通常會對與之交互的特定機器學習模型的功能和能力建立一個心智模型。每次更新時，他們都必須調整自己的心智模型——這是一項耗費精力的任務，可能會導致用戶不滿。

在實踐中，微調下游任務適配器依賴於預訓練的 LLM 基礎模型。當這些基礎模型更新時，這些面向用戶的下游任務模型就會出現實例退化（Instance regression）或負向翻轉（Negative flips）的情況。即使下游任務訓練程序保持不變，這種情況也會發生。

在這項工作中，來自蘋果公司、加州大學聖地亞哥分校的研究團隊希望通過兩種方式爲用戶提供無縫的模型更新。首先，他們爲與先前模型版本的兼容性概念提供了評估指標，特別適用於生成任務，但也適用於判別任務。他們觀察了不同任務和模型更新上不同模型版本之間的退化和不一致性。其次，他們提出了一種訓練策略，從而儘量減少模型更新中不一致的情況，其中包括訓練一個兼容性模型，該模型可以增強任務微調語言模型。從 Llama 1 到 Llama 2，他們減少了多達 40% 的負向翻轉——即以前正確的實例現在被錯誤地預測出來。

論文鏈接：https://arxiv.org/abs/2407.09435

Make-An-Agent：輕鬆爲一個智能體生成控制策略

我們能否像根據文字描述創建圖像一樣，只用一個預期行爲的演示作爲提示，就毫不費力地爲一個智能體（agent）生成控制策略？

在這項工作中，來自馬里蘭大學、清華大學和加州大學聖地亞哥分校的研究團隊，提出了一種新穎的策略參數生成器——Make-An-Agent，它利用條件擴散模型，實現從行爲到策略的生成。

該策略生成器以編碼軌跡信息的行爲嵌入爲指導，合成潛在參數表示，然後將其解碼爲策略網絡。通過對策略網絡檢查點及其相應軌跡的訓練，生成模型在多個任務上都表現出了卓越的通用性和可擴展性，並在未見過的任務上具有很強的泛化能力，只需少量的演示作爲輸入就能輸出表現良好的策略。

他們展示了其在不同領域和任務上的功效和效率，包括不同的目標、行爲，甚至不同的機器人操縱器。除了模擬，他們還將 Make-An-Agent 生成的策略直接部署到真實世界的機器人上來執行運動任務。

論文鏈接：https://arxiv.org/abs/2407.10973

北航、美團團隊推出首個視頻擴散模型訓練後量化策略 QVD

最近，視頻擴散模型（VDM）因其在生成連貫逼真的視頻內容方面的顯著進步而備受關注。然而，同時處理多個幀特徵，再加上模型體積龐大，會導致高延遲和大量內存消耗，阻礙了其更廣泛的應用。

訓練後量化（PTQ）是減少內存佔用和提高計算效率的有效技術。與圖像擴散不同，來自北京航空航天大學和美團的研究團隊觀察到，整合到所有幀特徵中的時間特徵表現出明顯的偏斜性。此外，他們還研究了視頻擴散模型激活過程中通道間的顯著差異和不對稱，這導致單個通道的量化水平覆蓋率較低，增加了量化的難度。

爲解決這些問題，他們推出了首個爲視頻擴散模型量身定製的 PTQ 策略——QVD。具體來說，他們提出了專爲時間特徵設計的高時間可辨別性量化（HTDQ）方法，該方法保留了量化特徵的高可辨別性，爲所有視頻幀提供精確的時間指導。此外，他們還提出了散射信道範圍整合（SCRI）方法，旨在提高各個信道量化水平的覆蓋率。各種模型、數據集的實驗驗證證明了 QVD 在各種指標方面的有效性。特別是，QVD 在 W8A8 上實現了近乎無損的性能降低，在 FVD 方面比現有方法高出 205.12。

論文鏈接：https://arxiv.org/abs/2407.11585

上海 AI Lab 提出 LLM 長上下文評估框架 NeedleBench

在評估大語言模型（LLM）的長上下文能力時，從原始長文檔中識別與用戶查詢相關的內容是任何 LLM 回答基於長文本的問題的重要前提。

來自上海 AI Lab 的研究團隊提出了 NeedleBench 框架，其由一系列挑戰性逐漸增加的任務組成，用於評估雙語長文本能力，跨越 4k、8k、32k、128k、200k、1000k 等多個長度區間和不同深度範圍，允許在不同文本深度區域策略性地插入關鍵數據點，從而嚴格測試模型在不同上下文背景下的檢索和推理能力。他們使用 NeedleBench 框架來評估領先的開源模型在雙語長文本中識別與問題相關的關鍵信息並應用這些信息進行推理的能力。此外，爲模擬現實世界長上下文任務中可能出現的邏輯推理挑戰的複雜性，他們還提出了 Ancestral Trace Challenge（ATC），從而爲評估 LLM 處理複雜長上下文情況提供了一種簡單的方法。

研究結果表明，當前的 LLM 難以應對現實世界中長上下文任務中可能出現的複雜邏輯推理挑戰，在實際長上下文應用中還有很大的改進空間。

論文鏈接：https://arxiv.org/abs/2407.11963GitHub 地址：https://github.com/open-compass/opencompass

DiT-MoE：將擴散 Transformer 擴展至 160 億參數

在這項工作中，來自崑崙萬維的研究團隊提出了擴散 Transformer（DiT）的稀疏版本——DiT-MoE，其具有可擴展性，與稠密網絡相比具有競爭力，同時表現出高度優化的推理能力。

DiT-MoE 包括兩個簡單的設計：共享專家路由和專家級平衡損失，從而捕捉共同知識並減少不同路由專家之間的冗餘。當應用於條件圖像生成時，對專家專業化的深入分析獲得了一些有趣的觀察結果：（1）專家選擇表現出對空間位置和去噪時間步長的偏好，而對不同類別的條件信息不敏感；（2）隨着 MoE 層的深入，專家選擇逐漸從特定空間位置轉向分散和平衡。（3）專家專業化在早期時間步趨於集中，而在一半之後則逐漸趨於均勻。研究團隊將其歸因於先對低頻空間信息建模，再對高頻複雜信息建模的擴散過程。

基於上述指導，一系列 DiT-MoE 在實驗中取得了與稠密網絡相當的性能，但在推理過程中所需的計算負荷卻小得多。更令人鼓舞的是，他們利用合成圖像數據證明了 DiT-MoE 的潛力，在 512×512 分辨率設置下，以 16.5B 參數縮放擴散模型的 SoTA FID-50K 得分爲 1.80。

論文鏈接：https://arxiv.org/abs/2407.11633GitHub 地址：https://github.com/feizc/DiT-MoE

VD3D：首個基於 transformer 的視頻擴散模型相機控制

當前的文本到視頻合成模型展示了從文本描述生成連貫、逼真的複雜視頻的能力。然而，大多數現有模型缺乏對相機運動的細粒度控制，而這對於內容創作、視覺效果和 3D 視覺等下游應用至關重要。

最近，一些新方法展示了生成具有可控相機姿態的視頻的能力——這些技術利用了預訓練的基於 U-Net 的擴散模型。然而，對於基於 transformer 的新型視頻擴散模型（可聯合處理空間和時間信息），現有方法均無法實現攝像機控制。

爲此，多倫多大學以及 Snap 研究團隊提出使用一種類似 ControlNet 的調控機制來控制視頻 transformer 進行 3D 相機控制，該機制結合了基於 Plucker 座標的時空相機嵌入。在對 RealEstate10K 數據集進行微調後，該方法在可控視頻生成方面達到了 SOTA。

這項工作首次實現了對基於 transformer 的視頻擴散模型進行相機控制。

論文鏈接：https://arxiv.org/abs/2407.12781項目地址：https://snap-research.github.io/vd3d/

MAVIS：首個針對 MLLM 的數學視覺指令微調範式

多模態大語言模型（MLLM）近年來成爲學術界和工業界的一個重要焦點。儘管它們在一般多模態場景中表現出色，但在視覺上下文中的數學問題解決能力仍然不足。

爲此，來自香港中文大學和北京大學的研究團隊及其合作者，確定了 MLLM 中的三個關鍵領域需要改進：數學圖表的視覺編碼、圖表與語言的對齊以及數學推理能力。這提出了對大規模、高質量數據和視覺數學訓練管道的迫切需求。研究團隊提出了首個針對 MLLM 的數學視覺指令微調範式——MAVIS，其涉及一系列數學視覺數據集和專門的 MLLM。

針對這三個問題，MAVIS 包含了三個逐步的訓練階段。首先，研究團隊策劃了 MAVIS-Caption，由 558K 圖表-標題對組成，通過對比學習微調一個數學專用的視覺編碼器（CLIP-Math），旨在改進圖表的視覺編碼。其次，團隊利用 MAVIS-Caption，通過投影層將 CLIP-Math 與大語言模型（LLM）對齊，增強數學領域的視覺-語言對齊。第三，團隊引入了 MAVIS-Instruct，包括 900K 精心收集和註釋的視覺數學問題，用於最終指令微調 MLLM，提升數學推理能力。在 MAVIS-Instruct 中，團隊爲每個問題納入了完整的推理鏈（CoT），並最小化文本冗餘，從而使模型更集中於視覺元素。

在各種數學基準測試中，例如 MathVerse，MAVIS-7B 在開源 MLLM 中表現出色，比其他 7B 模型高出 11.0%，比第二名的 LLaVA-NeXT（110B）高出 3.0%，展示了團隊方法的有效性。

論文鏈接：https://arxiv.org/abs/2407.08739GitHub 地址：https://github.com/ZrrSkywalker/MAVIS

Lynx：一個開源的幻覺評估模型

檢索增強生成（RAG）技術旨在減少大語言模型（LLM）中的幻覺。然而，LLM 仍可能產生與檢索內容不符或相矛盾的信息。

爲此，來自 Patronus AI 和 Contextual AI 的研究團隊推出了一個最新的幻覺檢測 LLM——LYNX，其能夠對複雜的真實幻覺場景進行高級推理。爲了評估 LYNX，他們推出了一個包含來自各種現實領域的 15000 個樣本的全面幻覺評估基準 HaluBench。

實驗結果顯示，LYNX 在 HaluBench 上優於 GPT-4o、Claude-3-Sonnet 以及其他開源和閉源的 LLM 裁判模型。

論文鏈接：https://arxiv.org/abs/2407.08488GitHub 地址：https://github.com/patronus-ai/Lynx-hallucination-detection項目地址https://www.patronus.ai/blog/lynx-state-of-the-art-open-source-hallucination-detection-model

｜點擊關注我記得標星｜

Google DeepMind 推出文生視頻模型定製通用框架 Still-Moving｜大模型週報

相關資訊