建議收藏!100篇必讀論文|大模型月報(2024.04)

大家好,這是我們的新專欄——大模型月報(100 篇必讀論文)——的第三篇文章,內容主要爲當前大模型領域熱門研究方向(如文生圖、文生視頻、文生音樂等)的熱門論文。

我們希望,這一專欄能夠爲大家提供較爲全面的大模型最新研究進展。當然,「大模型月報」目前還無法涵蓋所有熱門論文以及研究方向,望請見諒。

歡迎大家在評論區多提建議~

以下,爲 2024 年 4 月份,我們收錄的一些熱門大模型研究論文。文章篇幅較長,共計 4.5 萬餘字,建議收藏~

第 1 章 文生圖

【清華、Meta 提出文生圖定製新方法 MultiBooth】

來自清華大學和 Meta 的研究團隊提出了一種用於從文生圖的多概念定製的新型高效技術—— MultiBooth。儘管定製生成方法取得了長足的進步,特別是隨着擴散模型的快速發展,但由於概念保真度低和推理成本高,現有方法在處理多概念場景時依然困難。

爲了解決這些問題,MultiBooth 將多概念生成過程分爲兩個階段:單一概念學習階段和多概念整合階段。在單概念學習階段,他們採用多模態圖像編碼器和高效的概念編碼技術,爲每個概念學習一個簡明且具有辨別力的表徵;在多概念整合階段,他們使用邊界框來定義交叉注意圖中每個概念的生成區域。這種方法可以在指定區域內創建單個概念,從而促進多概念圖像的形成。

這一策略不僅提高了概念的保真度,還降低了額外的推理成本。在定性和定量評估中,MultiBooth 都超越了各種基線,展示了其卓越的性能和計算效率。

論文鏈接:https://arxiv.org/abs/2404.14239

項目地址:https://multibooth.github.io/

【 ID-Aligner:利用獎勵反饋學習增強“文生圖”身份保持】

擴散模型的快速發展催生了各種應用。尤其是身份保持的文本到圖像生成(ID-T2I),因其廣泛的應用場景(如人工智能肖像和廣告)而備受關注。

雖然現有的 ID-T2I 方法已經取得了令人矚目的成果,但仍存在幾個關鍵挑戰:1)很難準確保持參考肖像的身份特徵;2)生成的圖像缺乏美感,尤其是在要求身份保持時;3)無法同時兼容基於 LoRA 和基於 Adapter 的方法。

爲了提高 ID-T2I 的性能,來自中山大學和字節跳動的研究團隊,提出了一種通用反饋學習框架——ID-Aligner。同時,爲了解決身份特徵丟失的問題,他們提出了身份一致性獎勵微調,利用人臉檢測和識別模型的反饋來改進生成的身份保存。此外,他們還提出了身份美學獎勵微調,利用人類標註的偏好數據獎勵和自動構建的字符結構生成反饋,從而提供美學調整信號。

得益於其通用反饋微調框架,該方法可輕鬆應用於 LoRA 和 Adapter 模型,從而實現一致的性能提升。在 SD1.5 和 SDXL 擴散模型上進行的大量實驗驗證了該方法的有效性。

論文鏈接:https://arxiv.org/abs/2404.15449

項目地址:https://idaligner.github.io/

【LazyDiffusion:用於交互式圖像編輯的懶惰擴散 Transformer】

來自 Adobe 研究院和特拉維夫大學的研究團隊提出了一種新型擴散 transformer——LazyDiffusion,它能高效地生成局部圖像更新。 他們以交互式圖像編輯應用爲目標,在這些應用中,用戶從空白畫布或圖像開始,使用二進制掩碼和文本提示指定一系列局部圖像修改。

他們的生成器分兩階段運行。首先,上下文編碼器處理當前畫布和用戶掩碼,生成一個緊湊的全局上下文來適應要生成的區域。其次,以該上下文爲條件,基於擴散的 transformer 解碼器以“lazy”的方式合成掩膜像素,即只生成掩碼區域。

之前的工作要麼重新生成整個畫布,浪費時間和計算,要麼將處理範圍限制在掩膜周圍的狹小矩形區域,完全忽略了全局圖像上下文。他們的解碼器的運行時間與掩碼大小成比例,掩碼大小通常很小,而他們的編碼器帶來的開銷可以忽略不計。實驗證明,在質量和保真度方面,他們的方法與最先進的內繪方法相比具有競爭力,同時在典型的用戶交互中(編輯掩碼佔圖像的 10%),速度提高了 10 倍。

論文鏈接: https://arxiv.org/abs/2404.12382

GitHub 地址: https://lazydiffusion.github.io/

【MoA:新型“文生圖”擴散模型個性化架構】

Snap 研究團隊提出了一種新的架構——混合注意力(MoA),用於文本到圖像擴散模型個性化。受大型語言模型(LLMs)中使用的專家混合機制(Mixture-of-Experts mechanism)的啓發,MoA 在兩個注意力路徑之間分配生成工作量:個性化分支和非個性化先驗分支。

MoA 的設計目的是通過將注意力層固定在先驗分支中來保留原始模型的先驗性,同時通過個性化分支儘量減少對生成過程的干預,該分支學會將主題嵌入到先驗分支生成的佈局和上下文中。一種新穎的路由機制可以管理各層像素在這些分支中的分佈,從而優化個性化和通用內容創建的融合。

經過訓練後,MoA 就能幫助創建高質量的個性化圖像,這些圖像包含多個主體,其構圖和交互方式與原始模型生成的圖像一樣多樣化。重要的是,MoA 增強了模型原有能力與新增強的個性化干預之間的區別,從而提供了一種以前無法實現的更加獨立的主體—語境控制。

論文鏈接: https://arxiv.org/abs/2404.11565

項目地址: https://snap-research.github.io/mixture-of-attention/

【Controlnet++:利用高效一致性反饋改進條件控制】

目前,爲了增強文本到圖像擴散模型的可控性,ControlNet 納入了基於圖像的條件控制。 然而,來自佛羅里達中央大學和字節跳動的研究團隊提出,現有方法在生成與圖像條件控制一致的圖像方面仍然面臨重大挑戰。

他們提出了一種新方法 Controlnet++,通過顯式優化生成圖像和條件控制之間的像素級循環一致性,來改善可控生成。具體來說,對於一個輸入條件控制,他們使用預訓練的判別獎勵模型來提取生成圖像的相應條件,然後優化輸入條件控制與提取條件之間的一致性損失。一個直接的實現方法是從隨機噪聲中生成圖像,然後計算一致性損失,但這種方法需要存儲多個採樣時間步的梯度,消耗了相當大的時間和內存成本。

爲了解決這個問題,他們提出了一種有效的獎勵策略,通過添加噪聲故意干擾輸入圖像,然後使用單步去噪圖像進行獎勵微調。這避免了與圖像採樣相關的大量成本,允許更有效的獎勵微調。

大量實驗表明,Controlnet++ 在各種條件控制下顯著提高了可控性。例如,在分割掩碼、線條藝術邊緣和深度條件方面,它比 ControlNet 分別提高了 7.9% mIoU、13.4% SSIM 和 7.6% RMSE。

論文鏈接:https://arxiv.org/abs/2404.07987

【RLCM:通過強化學習微調一致性模型】

強化學習(RL)通過直接優化獲取圖像質量、美學和指令跟隨能力的獎勵,改進了擴散模型的引導圖像生成。然而,由此產生的生成策略繼承了擴散模型的迭代採樣過程,導致生成速度緩慢。

爲了克服這一侷限性,一致性模型提出學習一類新的生成模型,直接將噪聲映射到數據,從而產生一種只需一次採樣迭代就能生成圖像的模型。

在這項工作中,爲了優化文本到圖像生成模型從而獲得特定任務獎勵,並實現快速訓練和推理,來自康奈爾大學的研究團隊提出了一種通過 RL 對一致性模型進行微調的框架——RLCM,其將一致性模型的迭代推理過程構建爲一個 RL 過程。RLCM 在文本到圖像生成能力方面改進了 RL 微調擴散模型,並在推理過程中以計算量換取樣本質量。

實驗表明,RLCM 可以調整文本到圖像的一致性模型,從而適應那些難以通過提示來表達的目標(如圖像壓縮性)和那些來自人類反饋的目標(如審美質量)。與 RL 微調擴散模型相比,RLCM 的訓練速度明顯更快,提高了在獎勵目標下測量的生成質量,並加快了推理過程,只需兩個推理步驟就能生成高質量圖像。

論文鏈接:https://arxiv.org/abs/2404.03673

項目地址:https://rlcm.owenoertell.com/

【InstantStyle:實現“風格保護”的文生圖】

基於 Tuning-free 擴散的模型已經在圖像個性化和定製領域展現出了巨大潛力。

然而,目前的模型在生成風格一致的圖像時仍然面臨着一些複雜的挑戰。首先,風格的概念本質上是不確定的,它包含多種元素,如顏色、材料、氛圍、設計和結構等等。其次,基於反轉的方法容易造成風格退化,往往會導致精細細節的丟失。最後,基於適配器的方法經常需要對每張參考圖像進行細緻的權重調整,從而實現風格強度和文本可控性之間的平衡。

在這項工作中,InstantX 團隊首先研究了幾個引人注目但卻經常被忽視的問題。然後,他們提出了一個用於解決這些問題的框架——InstantStyle,包括兩個關鍵策略:(1)一種直接的機制,將風格和內容與特徵空間內的參考圖像解耦,其前提是同一空間內的特徵可以相互添加或減去;(2)將參考圖像特徵完全注入特定風格塊中,從而防止風格泄漏,並避免了繁瑣的權重調整,這通常是參數較多的設計的特點。

這一工作展示了優秀的視覺風格化成果,在風格的強度和文本元素的可控性之間取得了最佳平衡。

論文鏈接: https://arxiv.org/abs/2404.02733

項目地址: https://instantstyle.github.io/

【SPRIGHT:提高“文生圖”模型的空間一致性】

當前文本到圖像(T2I)模型的主要缺陷之一是無法始終如一地生成忠實於文本提示中指定的空間關係的圖像。

來自亞利桑那州立大學、Intel Labs 的研究團隊及其合作者,對這一侷限性進行了全面的研究,同時還開發了能達到 SOTA 的數據集和方法。

研究團隊發現當前的視覺語言數據集不能很好地表現空間關係;爲了緩解這一瓶頸,他們從 4 個廣泛使用的視覺數據集中抽取了 600 萬張圖片重新進行標註,進而創建了首個以空間爲重點的大規模數據集——SPRIGHT。通過三重評估和分析,他們發現 SPRIGHT 在捕捉空間關係方面比現有數據集有很大改進。爲了證明 SPRIGHT 的功效,他們只利用了約 0.25% 的 SPRIGHT,就在生成空間精確圖像方面提高了 22%,同時還提高了 FID 和 CMMD 分數。

此外,他們發現在包含大量物體的圖像上進行訓練可大幅提高空間一致性。值得注意的是,通過在小於 500 張圖像上進行微調,他們在 T2I-CompBench 上達到了 SOTA,空間分數爲 0.2133。

論文鏈接: https://arxiv.org/abs/2404.01197

項目地址:https://spright-t2i.github.io/

【上海 AI Lab 新研究:將 LVLM 分辨率提升到 4K HD】

由於分辨率限制,大型視覺語言模型(LVLM)在理解細粒度視覺內容方面面臨挑戰。

來自上海 AI Lab 和香港中文大學的研究團隊提出了 InternLM-XComposer2-4KHD —— 將 LVLM 分辨率提升到 4K HD(3840 x 1600)及更高分辨率。同時,考慮到並非所有場景都需要超高分辨率,它支持從 336 像素到 4K 標準的各種不同分辨率,大大拓寬了其適用範圍。

研究表明,將訓練分辨率擴展到 4K HD 可帶來持續的性能提升,而不會觸及潛在改進的上限。InternLM-XComposer2-4KHD 在 10 項測試中表現出了與 GPT-4V 和 Gemini Pro 相媲美甚至超越的能力。

論文鏈接:https://arxiv.org/abs/2404.06512

Github 地址:https://github.com/InternLM/InternLM-XComposer

第 2 章 文/圖生視頻

【ID-Animator:零樣本身份保持人類視頻生成器】

生成具有指定身份(ID)的高保真人類視頻,已引起內容生成領域的極大關注。然而,現有技術很難在訓練效率和身份保持(identity preservation)之間取得平衡,要麼需要進行繁瑣的逐個微調,要麼通常會在視頻生成過程中遺漏 ID 細節。

來自中國科學技術大學、中國科學院和騰訊的研究團隊,提出了一種零樣本人類視頻生成方法 ID-Animator,它可以在給定單個參考面部圖像的情況下,無需進一步訓練即可生成個性化視頻。ID-Animator 繼承了現有的基於擴散的視頻生成骨幹技術,並配備了人臉適配器,可從可學習的面部潛在查詢中編碼與 ID 相關的嵌入。

爲了便於在視頻生成過程中提取 ID 信息,他們提出了一個面向 ID 的數據集構建管道,該管道從構建的面部圖像池中整合瞭解耦人類屬性和動作字幕技術。在此基礎上,他們進一步設計了一種隨機人臉參考訓練方法,從而從參考圖像中精確捕捉與 ID 相關的嵌入,從而提高該模型在特定 ID 視頻生成中的保真度和泛化能力。

大量實驗證明,ID-Animator 在生成個性化人類視頻方面達到了 SOTA。此外,他們的方法與流行的預訓練 T2V 模型(如 animatediff 和各種社區骨幹模型)高度兼容,在需要保持 ID 的視頻生成實際應用中具有很高的可擴展性。

論文鏈接:https://arxiv.org/abs/2404.15275

GitHub 地址:https://github.com/ID-Animator/ID-Animator

【PhysDreamer:通過視頻生成,與 3D 物體進行基於物理交互】

逼真的物體交互對於創造身臨其境的虛擬體驗至關重要,然而如何根據新穎的交互合成逼真的 3D 物體動力學仍是一項重大挑戰。

與無條件或文本條件動態生成不同,動作條件動態生成需要感知物體的物理材料屬性,並根據這些屬性(如物體剛度)進行 3D 運動預測。然而,由於缺乏真實材料數據,估計物理材料屬性是一個未決問題,因爲測量真實物體的這些屬性非常困難。

來自麻省理工學院、斯坦福大學、哥倫比亞大學和康奈爾大學的研究團隊提出了一種基於物理學的方法 PhysDreamer ,它利用視頻生成模型學習到的物體動力學先驗,賦予靜態 3D 物體以交互式動態效果。通過提煉這些先驗,PhysDreamer 能夠合成逼真的物體對外力或智能體操作等新型交互的反應。

他們在各種彈性物體示例中演示了這種方法,並通過用戶研究評估了合成交互的逼真度。PhysDreamer 通過使靜態 3D 物體以物理上可信的方式對交互刺激做出動態響應,向更吸引人、更逼真的虛擬體驗邁出了一步。

論文鏈接:https://arxiv.org/abs/2404.13026

項目地址:https://physdreamer.github.io/

【“圖生視頻”新研究:剪貼畫秒變卡通動畫】

剪貼畫是一種預先製作的圖形藝術形式,爲視覺內容提供了一種方便、高效的說明方式。將靜態剪貼畫圖像轉換成動態序列的傳統工作流程既費力又費時,其中涉及許多複雜的步驟,如裝配、關鍵動畫和中間處理。文本到視頻生成技術的最新進展爲解決這一問題帶來了巨大潛力。

然而,直接應用文字視頻生成模型往往難以保留剪貼畫圖像的視覺特徵或生成卡通風格的動作,導致動畫效果不盡如人意。來自香港城市大學和莫納什大學提出了一個將靜態剪貼畫圖像轉化爲由文本到視頻先驗指導的高質量運動序列系統 AniClipart。

爲了生成卡通風格的平滑運動,他們首先在剪貼畫圖像的關鍵點上定義 Bézier 曲線,作爲一種運動正則化形式。然後,通過優化視頻分數蒸餾採樣(VSDS)損失,將關鍵點的運動軌跡與所提供的文字提示對齊,該損失在預訓練的文字視頻擴散模型中編碼了足夠的自然運動知識。該方法採用了可微分的形狀變形算法(As-Rigid-As-Possible shape deformation algorithm),可以在保持變形剛度的同時進行端到端優化。

實驗結果表明,在文本-視頻對齊、視覺特性保持和運動一致性方面,AniClipart 始終優於現有的圖像-視頻生成模型。展示了 AniClipart 的通用性,通過調整它來生成更廣泛的動畫格式,如分層動畫,允許拓撲變化。

論文鏈接: https://arxiv.org/abs/2404.12347

項目地址:https://aniclipart.github.io/

【 MagicTime:一種變形延時視頻生成模型】

目前,文生視頻(T2V)技術的進展在從文本描述合成高質量的通用視頻方面取得了 SOTA。

然而,T2V 中一個很大程度上被忽視的問題是,現有模型沒有充分編碼真實世界的物理知識,因此生成的視頻往往具有有限的運動和較差的變化。

來自北京大學和羅切斯特大學的研究團隊提出了一種名爲 MagicTime 的變形延時視頻生成模型,該模型從延時視頻中學習真實世界的物理知識,並實現了變形生成。

首先,他們設計了一個 MagicAdapter 方案來解耦時空訓練,從變形視頻中編碼更多的物理知識,並轉換預訓練 T2V 模型來生成變形視頻。其次,他們提出了一種適應變形延時視頻的動態幀提取策略,它具有更大的變化範圍,涵蓋了戲劇性的物體變形過程,因此比一般視頻體現了更多的物理知識。最後,他們提出了一個魔術文本編碼器,以提高對變形視頻提示的理解。此外,該研究團隊還創建了一個名爲 ChronoMagic 的延時視頻文本數據集,專門用於解鎖變形視頻生成能力。

實驗證明,MagicTime 在生成高質量和動態變形視頻方面達到了 SOTA,表明延時視頻生成是構建物理世界變形模擬器的一個途徑。

論文鏈接: https://arxiv.org/abs/2404.05014

項目網站:https://github.com/PKU-YuanGroup/MagicTime

【 CameraCtrl:爲文生視頻模型增加“相機控制”】

可控性在視頻生成中起着至關重要的作用,因爲它允許用戶創建所需的內容。然而,現有模型在很大程度上忽視了對相機姿態的精確控制,而相機姿態能夠表達更深層次敘事細微差別的電影語言。爲了解決這個問題,來自香港中文大學、上海 AI Lab 和斯坦福大學的研究團隊提出了 CameraCtrl,爲文本到視頻(T2V)模型提供精確的相機姿態控制。

據介紹,在精確設定相機軌跡參數後,即插即用的相機模塊就可以在 T2V 模型上進行訓練,而無需其他模型。此外,對各種數據集的效果進行的綜合研究表明,相機分佈多樣、外觀相似的視頻確實增強了可控性和通用性。實驗結果表明,CameraCtrl 能有效實現精確的領域自適應相機控制,這標誌着在通過文本和相機姿態輸入實現動態和定製化視頻敘事方面又向前邁進了一步。

論文鏈接: https://arxiv.org/abs/2404.02101

項目地址:https://hehao13.github.io/projects-CameraCtrl/

第 3 章 文生音頻

【英偉達推出 Audio Dialogues:用於音頻和音樂理解的對話數據集】

現有的音頻理解數據集主要集中在單回合交互(即音頻字幕、音頻問答)上,用於以自然語言描述音頻,從而限制了通過交互式對話理解音頻。

爲了解決這一差距,英偉達研究團隊提出了一個包含 163.8k 樣本的多回合對話數據集——Audio Dialogues,用於一般音頻和音樂。除了對話,Audio Dialogues 還具有問答對,可以一起理解和比較多個輸入音頻。

Audio Dialogues 利用基於提示的方法和來自現有數據集的標題註釋,使用大型語言模型(LLM )生成多回合對話。在所提出的數據集上評估了現有的音頻增強的大型語言模型,從而證明音頻對話的複雜性和適用性。

論文鏈接:https://arxiv.org/abs/2404.07616

Github 地址:https://audiodialogues.github.io/

【港科大提出 FlashSpeech:高效零樣本語音合成】

目前,語言模型和擴散模型在大規模零樣本語音合成方面取得了顯著進展。然而,這兩種方法的生成過程都很慢且計算量很大。使用較低的計算預算進行高效語音合成,達到與之前工作相當的質量,仍然是一個重大挑戰。

來自香港科技大學的研究團隊及其合作者,提出了一個大規模的零樣本語音合成系統——FlashSpeech,與以前的工作相比,它的推理時間大約減少了 5%。FlashSpeech 建立在潛在一致性模型的基礎上,並應用了一種新的對抗一致性訓練方法,無需預先訓練的擴散模型作爲“教師”,即可從頭開始訓練。此外,新的韻律生成器模塊增強了韻律的多樣性,使語音的節奏聽起來更加自然。

FlashSpeech 的生成過程可以通過一個或兩個採樣步驟高效地完成,同時保持高音頻質量和與零樣本語音生成音頻提示的高相似性。實驗結果證明 FlashSpeech 達到了 SOTA。值得注意的是,FlashSpeech 可以比其他零樣本語音合成系統快 20 倍,同時在語音質量和相似性方面保持相當的性能。此外,FlashSpeech 通過有效地執行語音轉換、語音編輯和多樣化的語音採樣等任務展示了其通用性。

論文鏈接: https://arxiv.org/abs/2404.14700

GitHub 地址:https://flashspeech.github.io/

【Stability AI 推出長音樂生成模型,時常可達 4 分 45 秒】

基於音頻的音樂生成模型近來取得了重要進展,但迄今爲止還無法生成具有連貫音樂結構的完整音樂曲目。在這項工作中,Stability AI 表示,通過對長時空背景的生成模型進行訓練,可以生成長達 4 分 45 秒的長篇音樂。據介紹,該模型由一個在高度降採樣的連續潛在表徵上運行的 diffusion-transformer 組成。根據音頻質量和提示對齊度量標準,它在生成結果方面獲得了 SOTA,主觀測試表明,它能生成具有連貫結構的長篇音樂。

論文鏈接:https://arxiv.org/abs/2404.10301

項目地址:https://stability-ai.github.io/stable-audio-2-demo/

【Tango 2:通過直接偏好優化對齊基於擴散的文生音頻模型】

生成式多模態內容在許多內容創作領域日益流行,因爲它有可能讓藝術家和媒體人員通過快速將他們的想法帶到生活中來創建預製作模型。根據文字提示生成音頻,是在音樂和電影行業中這類流程的一個重要方面。

目前,許多基於文生視頻的擴散模型專注於在大量提示音頻對數據集上訓練日益複雜的擴散模型。然而,這些模型並沒有明確地關注概念或事件的存在,以及它們在輸出音頻中與輸入提示相關的時間順序。

來自新加坡科技設計大學的研究團隊及其合作者假設關注的是音頻生成的這些方面如何在數據有限的情況下提高音頻生成的性能。他們使用現有的文本到音頻模型 Tango,綜合創建了一個偏好數據集,其中每個提示都有一個贏家的音頻輸出和一些輸家的音頻輸出,供擴散模型學習。從理論上講,輸家的輸出可能缺少提示中的一些概念或順序不正確。

他們在偏好數據集上使用 diffusion-DPO 損失對公開可用的 Tango 文生視頻模型進行了微調,並表明它在自動和手動評估指標方面優於 Tango 和 AudioLDM2 的音頻輸出。

論文鏈接:https://arxiv.org/abs/2404.09956

GitHub 地址:https://github.com/declare-lab/tango

【Melodist:實現包含人聲和伴奏的可控文生歌曲模型】

歌曲是歌聲和伴奏的結合,然而,現有的工作主要集中在歌唱聲音合成和音樂生成上,很少有人關注歌曲合成。

來自浙江大學的研究團隊提出了一項名爲“文本到歌曲合成”(text-to-song synthesis)的新任務,其中包含人聲和伴奏的生成,他們開發的 Melodist 是一種兩階段文本到歌曲方法,包括歌唱語音合成 (SVS)和人聲到伴奏合成 (V2A)。Melodist 利用三塔對比預訓練來學習更有效的文本表示,用於可控的 V2A 合成。

爲了緩解數據的稀缺性問題,他們構建了一個從音樂網站中挖掘出的中文歌曲數據集。在他們的數據集上的評估結果表明,Melodist 可以合成具有相當質量和風格一致性的歌曲。

論文鏈接:https://arxiv.org/abs/2404.09313

項目地址:https://text2songmelodist.github.io/Sample/

【微軟、上交大推出 CoVoMix:實現多個對話者的多輪對話】

近來,零樣本文本到語音(TTS)建模技術的進步推動了高保真和多樣化語音的生成,然而,對話生成以及實現類似人類的自然語音仍然是該領域的一項挑戰。

在這項工作中,來自微軟和上海交通大學的研究團隊,提出了一種用於零樣本、類人、多揚聲器、多輪對話語音生成的新型模型——CoVoMix。

據介紹,CoVoMix 能夠首先將對話文本轉換成多個離散的 token 流,每個 token 流代表單個對話者的語義信息。然後,將這些 token 流輸入一個基於流匹配的聲學模型,生成混合旋律譜圖。最後,使用 HiFi-GAN 模型生成語音波形。另外,他們還設計了一套衡量對話建模和生成效果的綜合指標。

實驗結果表明,CoVoMix 不僅能生成自然、連貫、類似人類的對話,還能讓多個對話者進行多輪對話。這些在單通道中生成的對話具有無縫語音轉換(包括重疊語音)和其他語言行爲(如笑聲)的特點。

論文鏈接:https://arxiv.org/abs/2404.06690

項目地址:https://www.microsoft.com/en-us/research/project/covomix/

【字節推出 VoiceShop:保留原音色,任意修改性別、口音和說話風格】

字節跳動提出了一個新型語音轉語音框架——VoiceShop,其可以在一次前向傳遞中修改語音的多個屬性,如年齡、性別、口音和說話風格,同時保留輸入說話者的音色。

以往的工作侷限於只能單獨編輯這些屬性的專用模型,並存在以下缺陷:轉換效果不明顯,沒有針對分佈外揚聲器的零樣本功能,或者合成輸出會出現音色泄漏,從而改變說話者的感知身份。

該工作在一個簡單的模塊化框架中提出瞭解決上述問題的方案,該框架基於一個條件擴散骨幹模型,並帶有可選的基於歸一化流的模塊和序列到序列的揚聲器屬性編輯模塊,這些模塊的組件可在推理過程中組合或移除,從而滿足各種任務的需要,而無需額外的模型微調。

論文鏈接:https://arxiv.org/abs/2404.06674

項目地址:https://voiceshopai.github.io/

【MuPT:生成式符號音樂預訓練 Transformer】

來自多倫多大學、中國科學院深圳先進技術研究院的研究團隊及其合作者探索了大型語言模型(LLMs)在音樂預訓練中的應用。

雖然在音樂建模中普遍使用 MIDI 已是公認的事實,但研究結果表明,LLM 本身與 ABC Notation 更爲兼容,後者更符合 LLM 的設計和優勢,從而提高了模型在音樂創作中的性能。爲了解決在生成過程中不同音軌的測量值不一致所帶來的挑戰,他們提出了一種同步的多音軌 ABC 記譜法(SMT-ABC Notation),旨在保持多個音樂音軌之間的一致性。

他們建立了一系列能夠處理多達 8192 token 的模型,涵蓋了訓練集中 90% 的符號音樂數據。此外,他們還探索了符號音樂縮放定律(SMS Law)對模型性能的影響,研究結果爲音樂生成的未來研究指明瞭一個有希望的方向。

論文鏈接:https://arxiv.org/abs/2404.06393

項目地址:https://map-mupt.github.io/

【 WavLLM:實現魯棒性和自適應語音大語言模型】

近年來,大型語言模型(LLMs)的發展給自然語言處理領域帶來了巨大變化,其範圍逐漸擴大到多模態感知和生成。然而,如何有效地將聽覺功能集成到 LLM 中,尤其是在不同語境下的泛化和執行復雜的聽覺任務方面,提出了巨大的挑戰。

來自香港中文大學、微軟的研究團隊提出了一種具有雙編碼器和提示感知 LoRA 權重適配器的魯棒自適應語音大語言模型——WavLLM,其通過兩階段課程學習方法進行了優化。

利用雙編碼器,研究團隊將不同類型的語音信息解耦,利用 Whisper 編碼器處理語音的語義內容,利用 WavLLM 編碼器捕捉說話者身份的獨特特徵。在課程學習框架內,WavLLM 首先通過優化混合初級單一任務來建立其基礎能力,然後在更復雜的任務(如初級任務的組合)上進行高級多任務訓練。

爲了提高靈活性並適應不同的任務和指令,研究團隊在第二個高級多任務訓練階段引入了提示感知的 LoRA 權重適配器。他們在通用語音基準(包括 ASR、ST、SV、ER 等任務)上驗證了所提出的模型,並將其應用於專業數據集,如用於 SQA 的高考英語聽力理解集和語音思維鏈(CoT)評估集。

實驗證明,在相同的模型規模下,所提出的模型在一系列語音任務中都達到了 SOTA,在使用 CoT 方法執行復雜任務時表現出了強大的泛化能力。

論文鏈接:https://arxiv.org/abs/2404.00656

第 4 章 文/圖生3D

【DreamScene360:無約束文本-3D 場景生成】

隨着虛擬現實應用的需求日益增長,製作身臨其境的 3D 資產也愈發重要。

來自加州大學洛杉磯分校、德州大學奧斯汀分校的研究團隊,提出了一個文本到 3D 360 度場景生成管道,可在幾分鐘內爲野外環境創建全面的 360 度場景。該方法利用 2D 擴散模型的生成能力和 prompt 的自我完善來創建高質量、全局一致的全景圖像。該圖像可作爲初步的“平面”(2D)場景表示。隨後,將其提升爲 3D 高斯圖像,利用拼接技術實現實時探索。

爲了生成一致的 3D 幾何圖形,該管道將 2D 單目深度對齊到全局優化的點雲中,從而構建出空間一致的結構。該點雲是 3D 高斯中心點的初始狀態。爲了解決單視角輸入中固有的隱形問題,他們對合成視角和輸入相機視角施加了語義和幾何約束,作爲正則化處理。這些約束爲高斯的優化提供了指導,有助於重建未見區域。

總之,與現有技術相比,該方法能在 360 度視角內提供全局一致的 3D 場景,從而增強身臨其境的體驗。

論文鏈接:https://arxiv.org/abs/2404.06903

項目地址:https://dreamscene360.github.io/

【清華朱軍團隊新研究:從單一圖像到 3D 生成】

近來,根據文本提示或單張圖像生成 3D 內容的技術在質量和速度上都取得了顯著進步,其主流模式之一是生成一致的多視圖圖像,然後進行稀疏視圖重建。

然而,由於直接變形網格表示以接近目標拓撲結構的挑戰,大多數方法在稀疏視圖重建過程中學習隱式表示(如 NeRF),並通過後處理提取獲得目標網格。雖然隱式表示法能有效模擬豐富的 3D 信息,但其訓練通常需要較長的收斂時間。此外,隱式領域的後提取操作還會導致不良的視覺僞影。

爲此,來自中國科學院大學、清華大學、西安電子科技大學和生數科技的研究團隊,提出了一種新型單圖像到 3D 生成框架——FlexiDreamer,其能以端到端的方式重建目標網格。通過利用稱爲 FlexiCubes 的基於梯度的靈活提取,該方法避免了後處理帶來的缺陷,有利於直接獲取目標網格。

此外,他們還採用了多分辨率哈希網格編碼方案,將編碼級別逐步激活到 FlexiCubes 中的隱式字段,從而幫助捕捉幾何細節,實現每一步優化。值得注意的是,FlexiDreamer 在單個 NVIDIA A100 GPU 上從單視角圖像中恢復密集 3D 結構僅需約 1 分鐘,優於之前的方法。

論文鏈接:https://arxiv.org/abs/2404.00987

項目地址:https://flexidreamer.github.io/

第 5 章 智能體(Agent)

【智譜AI、清華團隊推出自動網頁導航智能體 AutoWebGLM】

大型語言模型(LLM)爲許多智能體任務(如網絡導航)提供了動力,但由於網頁上操作的多樣性、HTML 文本超出模型處理能力以及由於網頁的開放域性質導致的決策的複雜性,大多數現有智能體在實際網頁中的表現遠不能令人滿意。

爲此,來自智譜AI 和清華大學的研究團隊,在 ChatGLM3-6B 的基礎上開發了自動網頁導航智能體 AutoWebGLM,其性能超過了 GPT-4。

受人類瀏覽模式的啓發,他們設計了一種 HTML 簡化算法來表示網頁,簡潔地保留重要信息。他們採用人類與人工智能混合的方法來建立用於課程訓練的網頁瀏覽數據。然後,他們通過強化學習和拒絕採樣對模型進行引導,進一步促進網頁理解、瀏覽器操作和高效的任務分解。

爲了進行更好的測試,他們爲真實世界的網頁瀏覽任務建立了一個雙語基準——AutoWebBench,並在各種網頁導航基準中對 AutoWebGLM 進行了評估,發現了它的改進之處,以及在應對真實環境時所面臨的挑戰。

論文鏈接: https://arxiv.org/abs/2404.03648

GitHub 地址:https://github.com/THUDM/AutoWebGLM

【BattleAgent:再現歷史事件,對歷史戰役進行多模態動態模擬】

來自羅格斯大學的研究團隊及其合作者提出了 BattleAgent,這是一個結合了大型視覺語言模型(LVLM)和多智能體(agent)系統的仿真系統,旨在模擬多個智能體之間以及智能體與其環境之間特定時間內的複雜動態互動。

它既能模擬領導者的決策過程,也能模擬士兵等普通參與者的觀點,展示了當前智能體的能力,具有智能體與環境之間細粒度多模態交互的特點。它開發了可定製的智能體結構,從而滿足特定的情境要求,例如偵察和挖掘戰壕等各種與戰鬥相關的活動。這些組件相互協作,以生動全面的方式再現歷史事件,同時從不同的視角洞察個人的思想和情感。

BattleAgent 爲歷史戰役建立了詳細和身臨其境的場景,使單個智能體能夠參與、觀察和動態響應不斷變化的戰役場景。這種方法有可能大大加深我們對歷史事件的理解,特別是通過個人敘述。由於傳統的歷史敘事往往缺乏文獻記載,而且優先考慮決策者的觀點,忽略了普通人的經歷,因此這種舉措也有助於歷史研究。

論文鏈接:https://arxiv.org/abs/2404.15532

【MIT CSAIL 推出多模態自動可解釋性智能體 MAIA】

MIT 計算機科學與人工智能實驗室團隊提出了一個多模態自動可解釋性智能體—— MAIA。

MAIA 是一個使用神經模型來自動完成神經模型理解任務(比如特徵解釋和故障模式發現)的系統。它爲預訓練的視覺語言模型配備了一系列工具,從而支持對其他模型的子組件進行迭代實驗,從而解釋其行爲。這些工具包括人類研究人員常用的工具:合成和編輯輸入,計算來自真實世界數據集的最大激活示例,以及總結和描述實驗結果。MAIA 提出的可解釋性實驗將這些工具組合在一起,用於描述和解釋系統行爲。

他們評估了 MAIA 在計算機視覺模型上的應用。他們首先描述了 MAIA 在圖像學習表示中描述(神經元級)特徵的能力。在幾個經過訓練的模型和一個具有配對 ground-truth 描述的合成視覺神經元新數據集上,MAIA 產生的描述與專家人類實驗者生成的描述相當。此外,MAIA 可以幫助完成兩個額外的可解釋性任務:降低對虛假特徵的敏感性,以及自動識別可能被錯誤分類的輸入。

論文鏈接:https://arxiv.org/abs/2404.14394

項目地址:https://multimodal-interpretability.csail.mit.edu/maia/

【AgentKit:使用圖而非編碼進行流程工程設計】

來自卡內基梅隆大學和英偉達的研究團隊爲多功能智能體(agent)提出了一個直觀的 LLM 提示框架——AgentKit,用於從簡單的自然語言提示中明確構建複雜的“思維過程”。

AgentKit 的基本構件是一個節點,其中包含針對特定子任務的自然語言提示。然後,用戶將節點鏈組合在一起,就像堆砌樂高積木一樣。節點鏈的設計可以明確執行自然結構的“思維過程”。例如,對於撰寫論文的任務,可以從以下思維過程開始:1)確定核心信息;2)確定先前的研究差距等。AgentKit 中的節點可以通過不同的設計和組合方式來實現多種高級功能,包括即時分層規劃、反思和從交互中學習。

此外,由於其模塊化性質和模擬人類思維過程的直觀設計,一個基本的智能體可以通過簡單的子任務提示列表來實現,因此沒有任何編程經驗的人也可以設計和調整智能體。

從定量分析上看,通過 AgentKit 設計的智能體在 WebShop 和 Crafter 上實現了 SOTA。這凸顯了 AgentKit 在使 LLM 智能體有效並適用於更廣泛應用方面的潛力。

論文鏈接:https://arxiv.org/abs/2404.11483

GitHub 地址:https://github.com/holmeswww/AgentKit

【COMBO:幫助多智能體合作的組合世界模型】

來自馬薩諸塞大學阿默斯特分校、清華大學和北京大學的研究團隊及其合作者,探討了具身多智能體合作問題,在這種情況下,去中心化智能體必須在只有部分自我中心世界觀的情況下進行合作。

爲了在這種情況下有效地制定計劃,與在單個智能體場景中學習世界動態不同,他們必須在僅對世界進行部分自我中心視覺觀察的情況下,模擬以任意數量智能體的行動爲條件的世界動態。

爲了解決部分可觀測性這一問題,他們首先訓練生成模型,以便在部分自我中心觀測條件下估計整體世界狀態。爲了能夠在此世界狀態下精確模擬多組行動,他們建議通過對多個智能體的自然可組合聯合行動進行因式分解並組合生成視頻,從而學習多智能體合作的組合世界模型。利用這種組合世界模型,結合視覺語言模型來推斷其他智能體的行動,就可以使用樹狀搜索程序來整合這些模塊,促進在線合作規劃。

爲了評估這一方法的有效性,他們使用 ThreeDWorld 模擬器創建了兩個具有挑戰性的多智能體長視野合作任務,並用 2-4 個智能體進行了實驗。結果表明,他們的合成世界模型是有效的,而且該框架能使智能體在各種任務和任意數量的智能體中與不同智能體進行高效合作。

論文鏈接:https://arxiv.org/abs/2404.10775

GitHub 地址:https://vis-www.cs.umass.edu/combo/

【綜述:基於大型語言模型的遊戲智能體】

遊戲智能體(agent)的開發在推動通用人工智能(AGI)的發展中起着至關重要的作用。大型語言模型(LLM)及多模態大型語言模型(MLLM)的進步爲遊戲 agent 的發展提供了前所未有的機遇,使其在複雜的計算機遊戲環境中具備類似人類的決策能力。

來自喬治亞理工學院和 Cisco Research 的研究團隊從整體角度全面概述了基於 LLM 的遊戲 agent。首先,他們介紹了基於 LLM 的遊戲 agent 的概念架構,其核心是六個基本功能組件:感知、記憶、思維、角色扮演、行動和學習。其次,他們調查了現有文獻中具有代表性的基於 LLM 的遊戲 agent 的方法和適應靈活性,涉及六種類型的遊戲,包括冒險遊戲、交流遊戲、競爭遊戲、合作遊戲、模擬遊戲以及製作和探索遊戲。最後,他們對這一新興領域的未來研究和發展方向進行了展望。

論文地址:https://arxiv.org/abs/2404.02039

GitHub 地址:https://github.com/git-disl/awesome-LLM-game-agent-papers

【綜述:用於推理、規劃和工具調用的智能體架構】

在這項工作中,來自 IBM、微軟的研究團隊探討了 AI 智能體實現方面的最新進展,重點關注它們實現複雜目標的能力,這些目標需要更強的推理、規劃和工具執行能力。

這項工作的主要目標是:1)交流現有 AI 智能體實現的當前能力和侷限性;2)分享他們從觀察這些系統的運行中獲得的見解;3)爲 AI 智能體設計的未來發展提出重要的考慮因素。

爲此,他們概述了單智能體和多智能體架構,確定了設計選擇中的關鍵模式和分歧,並評估了它們對實現既定目標的總體影響。

論文鏈接: https://arxiv.org/abs/2404.11584

【綜述:大模型智能體的記憶機制】

近來,基於大型語言模型(LLM)的智能體引起了研究界和工業界的廣泛關注。與原始 LLM 相比,基於 LLM 的智能體具有自進化(self-evolving)能力,這是解決現實世界中需要長期、複雜的智能體-環境交互問題的基礎。

支持智能體與環境交互的關鍵要素是智能體的記憶。雖然以往的研究提出了許多有前景的記憶機制,但這些機制散見於不同的論文中,缺乏系統的綜述,無法從整體的角度對這些工作進行總結和比較,也無法抽象出通用而有效的設計模式來啓發未來的研究。

爲此,來自中國人民大學和華爲的研究團隊對基於 LLM 的智能體的記憶機制進行了全面研究。具體來說,他們首先討論了基於 LLM 的智能體的“記憶是什麼”和“爲什麼需要記憶”;然後,系統地回顧了以往關於如何設計和評估內存模塊的研究;此外,還介紹了許多智能體應用,其中內存模塊發揮了重要作用;最後,分析了現有工作的侷限性,並指出了未來的重要方向。

論文鏈接: https://arxiv.org/abs/2404.13501

第 6 章 對齊(Alignment)

【智譜AI、清華團隊推出 ChatGLM-RLHF】

ChatGLM 是一項免費使用的人工智能(AI)服務,由 ChatGLM 系列大型語言模型(LLM)提供支持。

爲增強 ChatGLM 與人類偏好的一致性,來自智譜AI 和清華大學的研究團隊推出了一個基於人類反饋的強化學習(RLHF)系統——ChatGLM-RLHF。

ChatGLM-RLHF 包括三個主要部分:收集人類偏好數據、訓練獎勵模型和優化策略。在將 ChatGLM-RLHF 集成到生產中的整個過程中,研究團隊遇到並解決了幾個前所未有的挑戰。他們爲穩定的大規模訓練提出了減輕獎勵差異的策略,利用融合梯度下降實現了模型並行性,並設計了正則化約束,從而避免 LLM 中的災難性遺忘。

實驗表明,與 ChatGLM 的監督微調(SFT)版本相比,ChatGLM-RLHF 在配準任務中取得了顯著改進。例如,與 ChatGLM-SFT 相比,它在中文對齊任務中的勝率平均提高了 15%。這項工作爲 LLM 與人類偏好對齊作出了實踐,爲 RLHF 實現中的挑戰和解決方案提供了見解。

論文鏈接: https://arxiv.org/abs/2404.00934

【針對 RLHF 的數據集重置策略優】

基於人類反饋的強化學習(RLHF)是微調生成模型的一種流行範式,已經產生了 GPT-4 和 Claude3 Opus 等強大的模型。這種框架通常包括兩個步驟:從離線偏好數據集學習獎勵模型,然後運行在線 RL 來優化學習到的獎勵模型。

在這項工作中,來自康奈爾大學、普林斯頓大學和 Microsoft Research 的研究團隊,利用重置思想提出了一種具有可證明保證的新型 RLHF 算法。受離線偏好數據集提供信息性狀態(即標註者偏好的數據)這一事實的啓發,他們提出的新算法——數據集重置策略優化(DR-PO)——通過數據集重置將現有的離線偏好數據集集成到在線策略訓練程序中:它直接將策略優化器重置爲離線數據集中的狀態,而不總是從初始狀態分佈開始。

從理論上講,該研究證明 DR-PO 在有限樣本複雜度的一般函數近似條件下,其學習性能至少與離線數據集所涵蓋的任何策略一樣好。在實驗中,他們證明了在 TL;DR 總結和 Anthropic Helpful Harmful 數據集上,在 GPT4 勝率指標下,DR-PO 的生成效果優於近端策略優化(PPO)和方向偏好優化(DPO)。

論文鏈接:https://arxiv.org/abs/2404.08495

GitHub 地址:https://github.com/Cornell-RL/drpo

【通過注意力調節實現更好的文本到圖像生成對齊】

在文本到圖像的生成任務中,擴散模型的進步提高了生成結果的保真度。然而,這些模型在處理包含多個實體和屬性的文本提示時遇到了挑戰。 注意力分佈不均會導致實體泄漏和屬性錯位問題。要解決這個問題,從頭開始訓練需要大量的標註數據,而且非常耗費資源。

爲此,來自新加坡國立大學、山東大學的研究團隊提出了一種屬性聚焦(attribution-focusing)機制,這是一種通過調節擴散模型的注意力來實現的免訓練分階段機制。

他們的核心理念之一是引導模型在不同的時間步集中於提示的相應句法成分。爲此,他們在自注意力模塊的早期階段加入了溫度控制機制,從而緩解實體泄漏問題。

另外,他們在交叉注意模塊中集成了以對象爲中心的屏蔽方案和分階段動態權重控制機制,使模型能夠更有效地辨別實體之間的語義信息關聯。

各種配準場景的實驗結果表明,該模型能以最小的額外計算成本實現更好的圖像-文本對齊。

論文鏈接:https://arxiv.org/abs/2404.13899

【MIT、谷歌新研究:基於零樣本跨語言對齊的獎勵模型轉移】

根據人類標註的偏好數據對語言模型(LMs)進行對齊,是獲得基於 LM 的系統實用且性能良好的的關鍵一步。 然而,多語言人類偏好數據很難大規模獲取,因此將這一框架擴展到多種語言具有挑戰性。

來自麻省理工大學和谷歌的研究團隊評估了一種簡單的零樣本跨語言對齊方法,即在一種源語言的偏好數據上訓練獎勵模型,然後直接應用於其他目標語言。在總結和開放式對話生成方面,他們表明這種方法在包括人工評估在內的綜合評估設置下始終是成功的,在多達 70% 的評估實例中,跨語言對齊模型比非對齊模型更受人類青睞。

此外,不同語言獎勵模型有時會比同種語言獎勵模型產生更好的對齊模型。他們還確定了在沒有特定語言數據甚至監督微調時的最佳實踐。

論文鏈接:https://arxiv.org/abs/2404.12318

第 7 章 安全治理

【OpenAI:如何讓大模型免受惡意攻擊?】

當前的大型語言模型(LLM)容易受到提示注入、越獄攻擊和其他攻擊的影響,這些攻擊允許攻擊者用他們自己的惡意提示覆蓋模型的原始指令。

OpenAI 研究團隊認爲,這些攻擊的主要漏洞之一是,LLMs 經常將系統提示(比如來自應用程序開發人員的文本)與來自不可信用戶和第三方的文本視爲相同的優先級。爲此,他們提出了一種指令層次(instruction hierarchy)結構,明確定義了當不同優先級的指令衝突時模型應該如何選擇。然後,他們提出了一種數據生成方法來演示這種分層指令跟隨的行爲,該方法指導 LLMs 有選擇地忽略低特權指令。

他們將這種方法應用於 GPT-3.5,結果表明它大大提高了模型的魯棒性——即使對於在訓練過程中未見過的攻擊類型也是如此,同時對標準能力的影響降到最低。

論文鏈接: https://arxiv.org/abs/2404.13208

【Google DeepMind 新研究:減輕說服型生成式 AI 的危害】

最近,生成式人工智能(AI)系統已經顯示出更先進的說服能力,並逐漸滲透到可以影響決策的生活領域。

然而,由於互惠交換和長時間互動的機會,生成式 AI 呈現了一種新的說服風險。這導致人們越來越關注說服型生成式 AI 的危害,以及如何減輕這些危害,從而突出了對說服型生成式 AI 進行系統研究的必要性。目前說服型生成式 AI 的定義不明確,相關的危害也沒有得到充分的研究。現有的減輕危害的方法優先考慮說服結果帶來的危害,而不是說服過程帶來的危害。

在這項研究中,Google DeepMind 團隊及其合作者提出了說服型生成式 AI 的定義,並區分了理性說服型生成式 AI 和操縱型生成式 AI(manipulative generative AI),前者依賴於提供相關事實、合理推理或其他形式的可信證據,後者則依賴於利用認知偏差和啓發式方法或歪曲信息。

他們還提出了服型生成式 AI 的危害,包括經濟、物理、環境、心理、社會文化、政治、隱私的定義和例子。然後,他們提出了一幅導致說服危害的機制圖,概述了可用於減輕說服過程危害的方法,包括操縱分類的提示工程和紅隊。他們未來的工作將使這些緩解措施具有可操作性,並研究不同類型說服機制之間的相互作用。

論文鏈接:https://arxiv.org/abs/2404.15058

【Google DeepMind:先進人工智能模型的整體安全與責任評估】

先進人工智能模型(AI)的安全性和責任評估是一個關鍵但尚在發展中的研究和實踐領域。

在 Google DeepMind 開發高級 AI 模型的過程中,他們創新並應用了一系列安全評估方法。他們總結並分享了他們不斷髮展的方法以及供廣大受衆參考的經驗教訓,其中包括:首先,理論基礎和框架對於組織風險領域、模式、形式、指標和目標的重要性是非常寶貴的;其次,安全評估發展的理論和實踐都能從合作中受益,從而明確目標、方法和挑戰,並促進不同利益相關者和學科之間的見解交流;第三,類似的關鍵方法、教訓和機構適用於責任和安全方面的各種問題 —— 包括既有的和新出現的危害。

因此,從事安全評估和安全研究的廣泛參與者必須共同努力,開發、完善和實施新的評估方法和最佳實踐。報告最後概述了快速推進評估科學、將新的評估納入 AI 的開發和治理、建立科學依據的規範和標準,以及促進強大的評估生態系統的明確需求。

論文鏈接:https://arxiv.org/abs/2404.14068

【谷歌 274 頁論文:高級人工智能助手的倫理】

來自 Google DeepMind、Google Research 的研究團隊及其合作者,重點探討了高級人工智能助理帶來的機遇以及倫理和社會風險。

他們將高級人工智能助理定義爲具有自然語言界面的 AI 智能體(artificial agents),其功能是根據用戶的期望,代表用戶在一個或多個領域規劃和執行一系列行動。

他們首先從技術本身入手,概述了人工智能助手、其技術基礎和潛在應用範圍;然後,探討了與人工智能價值一致性、幸福感、安全性和惡意使用有關的問題,他們將進一步擴大調查範圍,更詳細地考慮高級人工智能助手與個人用戶之間的關係,探討操縱和說服、擬人化、信任和隱私等話題,有了這些分析之後,他們將考慮在社會範圍內部署高級人工智能助手,重點關注合作、公平與獲取、錯誤信息、經濟影響、環境以及如何最好地評估高級人工智能助手;最後,他們爲研究人員、開發人員、政策制定者和公共利益相關者提供了一系列建議。

分析表明,高級人工智能助手很可能會對我們的個人和集體生活產生深遠影響。他們認爲,要使人工智能助手有益並與人類價值觀一致,就必須對用戶、開發者和社會之間相互競爭的訴求和需求做出適當迴應。

人工智能助手所具備的功能,如更強的智能體能力、自然語言交互能力和高度個性化,對用戶特別有幫助。然而,這些特點也使人們容易受到技術的不當影響,因此需要強有力的保障措施。

此外,當人工智能助手被大規模部署時,它們之間的互動所產生的連鎖效應以及它們對更廣泛的機構和社會進程的整體影響問題就會凸顯出來。這些動態可能需要技術和政策干預,從而促進有益的合作,實現廣泛、包容和公平的成果。

最後,鑑於目前的人工智能評估主要側重於人工智能系統的技術組成部分,因此必須投資於人工智能助手的整體社會技術評估,包括人與人工智能的互動、多智能體和社會層面的研究,從而支持該領域負責任的決策和部署。

相關鏈接: https://deepmind.google/discover/blog/the-ethics-of-advanced-ai-assistants/

【確保 LLM 對齊和安全的 18 個基本挑戰】

來自劍橋大學的研究團隊及其合作者確定了在確保大型語言模型(LLMs)的一致性和安全性方面的 18 個基本挑戰。這些挑戰被分爲三個不同的類別:對 LLMs 的科學理解,開發和部署方法,以及社會技術挑戰。他們根據已確定的挑戰,提出了 200 多個具體的研究問題。

論文鏈接:https://arxiv.org/abs/2404.09932

【負責任的生成式 AI:生成什麼,不生成什麼】

近年來,與大型語言模型和文本到圖像模型一樣,生成式人工智能(GenAI)在各個領域受到了極大的關注。然而,確保這些模型生成負責任的內容對於它們在現實世界中的適用性至關重要。

爲了應對這一挑戰,牛津大學高級研究員 Jindong Gu 探究了文本生成模型和視覺生成模型的實際負責任要求,概述了五個關鍵考慮因素:生成真實的內容,避免有毒內容,拒絕有害指令,不泄露與訓練數據相關的內容,並確保生成的內容可識別。

具體來說,他們回顧了滿足這些要求的最新進展和挑戰。此外,他們討論並強調了負責任的 GenAI 在醫療保健、教育、金融和人工智能領域的重要性。通過對文本和視覺生成模型的統一視角,該研究團隊旨在爲實際安全相關問題提供見解,並進一步使社區在構建負責任的 GenAI 方面受益。

論文鏈接:https://arxiv.org/abs/2404.05783

【首個根據人類審查的安全指令進行微調的開源多語言模型】

預訓練語言模型是多種人工智能(AI)應用的基礎,但其高昂的訓練計算成本限制了其普及性。然而,現有模型面臨着多語言能力有限、持續預訓練會導致災難性遺忘(而從頭開始預訓練的計算成本又很高),以及是否符合人工智能安全和開發法律等各種挑戰。

Aurora-M 是一個 15B 參數的多語種開源模型,使用英語、芬蘭語、印地語、日語、越南語和代碼進行訓練。Aurora-M 在 StarCoderPlus 的基礎上對 4350 億個額外 token 進行了持續預訓練,總訓練 token 數超過了 2 萬億個。它是首個根據人類審查的安全指令進行微調的開源多語言模型。Aurora-M 經過了各種任務和語言的嚴格評估,在多語言環境下,尤其是在安全評估中,表現出了對災難性遺忘的魯棒性和優於替代方案的性能。

論文鏈接:https://arxiv.org/abs/2404.00399

第 8 章 大模型/AI4Science

【ResearchAgent:基於 LLM 的科學文獻迭代研究思想生成】

一些對改善人類生活至關重要的科學研究,由於其固有的複雜性、緩慢的速度和對專業專家的需求而受到阻礙。

爲了提高它的生產力,來自韓國科學技術院和微軟的研究團隊,提出了一個大型語言模型驅動的研究思想寫作智能體 —— ResearchAgent,它自動生成問題、方法和實驗設計,同時根據科學文獻迭代對它們進行改進。

具體來說,從一篇核心論文爲主要焦點來產生想法開始,ResearchAgent 不僅通過連接學術圖上的信息來關聯出版物,而且根據其基本概念從以實體爲中心的知識存儲中檢索實體,在許多論文中進行挖掘和共享。

此外,反映了人類通過同行討論迭代改進想法的方法,利用多個評審智能體迭代來提供評審和反饋。用人類偏好對齊的大型語言模型來實例化它們,這些模型的評估標準來自實際的人類判斷。他們在多學科的科學出版物上驗證了 ResearchAgent,展示了其在基於人工和基於模型的評估結果生成新穎、清晰和有效的研究想法方面的有效性。

論文鏈接:https://arxiv.org/abs/2404.07738

【清華團隊新研究:通過提示工程在 LLM 中整合化學知識】

該論文介紹了一項關於整合提示工程中特定領域知識來提高科學領域大型語言模型(LLM)性能的研究。

來自清華大學和牛津大學的研究團隊設計了一個基準數據集,包括了小分子錯綜複雜的物理化學特性,在藥理學上的可藥性,以及酶和晶體材料的功能屬性,強調了其在生物和化學領域的相關性和適用性。通過對麥克米倫催化劑、紫杉醇和氧化鈷鋰等複雜材料的案例研究,證明了該方法的有效性。

研究結果表明,領域知識提示可以引導 LLM 生成更準確、更相關的回答,突出了 LLM 在配備特定領域提示後作爲科學發現和創新的強大工具的潛力。研究還討論了特定領域提示工程開發的侷限性和未來方向。

論文鏈接:https://arxiv.org/abs/2404.14467

【用於腫瘤臨牀決策的自主 AI 智能體】

多模態人工智能(AI)系統有可能通過解釋各種類型的醫療數據來增強臨牀決策。

然而,這些模型在所有醫學領域的有效性是不確定的。每個學科都提出了獨特的挑戰,需要解決最佳性能。當試圖將不同的字段集成到單個模型中時,這種複雜性會進一步增加。

來自海德堡大學和德累斯頓工業大學的研究團隊及其合作者提出了一種多模態醫療 AI 的替代方法,該方法利用大型語言模型(LLM)的通才能力作爲中央推理引擎。這個引擎可以自主協調和部署一套專門的醫療 AI 工具。這些工具包括文本、放射學和組織病理學圖像解釋、基因組數據處理、網絡搜索和醫學指南文檔檢索。他們在一系列臨牀腫瘤學場景中驗證他們的系統,這些場景與典型的患者護理工作流程非常相似。

研究表明,該系統在使用合適的工具、得出正確的結論、爲個別病例提供完整和有用的建議方面具有很高的能力,同時在指導下持續參考相關文獻。這項工作證明 LLM 可以有效地計劃和執行特定於領域的模型,從而將檢索或合成作爲自主智能體的新信息,這使他們能夠爲病人量身定製的臨牀助理。它還通過允許單獨驗證和批准每個組件工具來簡化法規遵從性。

論文鏈接:https://arxiv.org/abs/2404.04667

【大型語言模型是“超人”的化學家嗎?】

大型語言模型(LLMs)由於能夠處理人類語言並執行未經明確訓練的任務而受到廣泛關注。這與化學科學息息相關,因爲化學科學麪臨着數據集小而多樣的問題,而這些數據集往往是文本形式的。然而,我們對 LLMs 化學推理能力的系統瞭解仍然非常有限,而這正是改進模型和減少潛在危害所必需的。

爲此,來自耶拿大學的研究團隊及其合作者,提出了一個自動化框架 ChemBench,旨在對照人類化學家的專業知識,嚴格評估最先進 LLM 的化學知識和推理能力。

他們爲化學科學的衆多子領域策劃了 7000 多個問答對,評估了領先的開放式和閉源 LLM,發現最佳模型的平均表現優於最優秀的人類化學家。然而,這些模型在一些對人類專家來說很容易完成的化學推理任務上卻表現較差,並提供了過於自信和誤導性的預測,比如關於化學品安全概況的預測。

這些發現表明,即儘管 LLM 在化學任務中表現出了非凡的能力,但進一步的研究對於提高其在化學科學中的安全性和實用性至關重要。

論文鏈接:https://arxiv.org/abs/2404.01475

【H2RSVLM:遙感視覺語言大模型】

目前,通用的大型視覺語言模型(VLMs)發展迅速,但在遙感(RS)領域仍表現不佳,這是由於遙感圖像的獨特性和專業性,以及目前的視覺語言模型的空間感知能力相對有限。現有的遙感專用視覺語言模型(RSVLM)仍有很大的改進潛力,這主要是由於缺乏大規模、高質量的遙感視覺語言數據集。

來自武漢大學和上海 AI Lab 的研究團隊提出了 HqDC-1.4M,即大規模高質量和詳細的 RS 圖像標題,其中包含 140 萬個圖像標題,這不僅增強了 RSVLM 對 RS 圖像的理解,還顯著提高了模型的空間感知能力,如定位和計數,從而增加了 RSVLM 的幫助。

此外,爲了解決 RSVLM 中不可避免的“幻覺”問題,他們還開發了首個旨在增強 RSVLM 自我認知能力的數據集——RSSA。

通過在典型的 RS 視覺問題解答任務中加入各種無法回答的問題,RSSA 有效地提高了模型輸出的真實性並減少了幻覺,從而提高了 RSVLM 的真實性。在這些數據集的基礎上,該研究團隊提出了H2RSVLM,即 “有用且誠實的遙感視覺語言模型”。H2RSVLM 在多個 RS 公開數據集上取得了優異的性能,能夠識別並拒絕回答無法回答的問題,有效地減少了錯誤生成。

論文鏈接:https://arxiv.org/abs/2403.20213

第 9 章 評測

【MMStar:一種新的大型視覺語言模型評測基準】

大型視覺語言模型(LVLM)近來取得了突飛猛進的發展,引發了大量評估其多模態能力的研究。

然而,來自中國科學技術大學、香港中文大學和上海 AI Lab 的研究團隊深入研究了當前的評測工作,發現了兩個主要問題:(1) 許多樣本不需要視覺內容,答案可以直接從問題和選項或 LLM 中嵌入的世界知識中推斷出來。這種現象在目前的基準中普遍存在。(2)LLM 和 LVLM 訓練中存在無意數據泄露。LLM 和 LVLM 在沒有視覺內容的情況下仍能回答一些視覺必需的問題,這表明在大規模訓練數據中對這些樣本進行了記憶。這兩個問題都會導致對實際多模態收益的誤判,並有可能誤導對 LVLM 的研究。

爲此,該研究團隊推出了 MMStar,這是一個新的視覺多模態基準,由人類精心挑選的 1500 個樣本組成。MMStar 對 6 種核心能力和 18 個細節軸進行了基準測試,旨在通過精心平衡和純化的樣本來評估 LVLM 的多模態能力。這些樣本首先是通過自動管道從當前基準中粗選出來的,然後再由人工進行審覈,以確保每個精選樣本都具有視覺依賴性、最小的 數據泄漏以及先進的多模態能力。

此外,他們還開發了兩個指標來衡量多模態訓練中的數據泄漏和實際性能增益,在 MMStar 上對 16 種領先的 LVLM 進行了評估,以評估它們的多模態能力,並在 7 個基準上使用所提出的指標來研究它們的數據泄漏和實際多模態增益。

論文鏈接:https://arxiv.org/abs/2403.20330

項目地址:https://mmstar-benchmark.github.io/

【MMT-Bench:大型視覺語言模型綜合多模態評測基準】

大型視覺語言模型(LVLM)在通用多模態應用(如視覺對話和嵌入式導航)方面取得了長足進步。然而,現有的多模態評測基準僅涵蓋有限的多模態任務,只能測試最基本的能力。

在這項工作中,來自上海 AI Lab、上海交通大學和香港大學的研究團隊及其合作者,提出了一個綜合基準 MMT-Bench,用於評估大規模多模態任務中的 LVLM,這些任務需要專家知識和審慎的視覺識別、定位、推理和規劃。MMT-Bench 包括 31325 個多選視覺問題,這些問題來自車輛駕駛和模擬導航等各種多模態場景,涵蓋多模態理解中的 32 個核心元任務和 162 個子任務。由於任務覆蓋面廣,MMT-Bench 可以使用任務地圖對 LVLM 進行評估,便於發現領域內和領域外的任務。

論文鏈接:https://arxiv.org/abs/2404.16006

【BLINK:視覺感知多模態大模型評測基準】

來自賓夕法尼亞大學、華盛頓大學和艾倫人工智能研究所的研究團隊及其合作者,提出了一個多模態語言模型(LLMs)的新基準 Blink,主要專注於其他評測中未發現的核心視覺感知能力。

大部分 Blink 任務對於人類來說都能“瞬間”解決(例如,相對深度估計、視覺對應、取證檢測和多視角推理)。然而,他們發現這些需要感知的任務對當前的多模態 LLMs 提出了巨大挑戰,因爲它們無法通過自然語言進行調解。Blink 將 14 項經典的計算機視覺任務改編成 3807 道選擇題,並配以單幅或多幅圖像和視覺提示。

雖然人類的平均準確率爲 95.70%,但 Blink 對現有多模態 LLM 的挑戰卻出人意料,即使是表現最好的 GPT-4V 和 Gemini,準確率也只有 51.26% 和 45.72%,僅比隨機猜測高出 13.17% 和 7.63%,這表明這種感知能力尚未在最近的多模態 LLM 中 出現。他們分析還強調,專業的 CV 模型可以更好地解決這些問題,這爲未來的改進提供了潛在的途徑,Blink 將激勵社區幫助多模態 LLMs 趕上人類水平的視覺感知。

論文鏈接:https://arxiv.org/abs/2404.12390

項目地址:https://zeyofu.github.io/blink/

【Ada-LEval:長上下文 LLM 評估基準】

最近,大型語言模型(LLM)界對增強 LLM 處理超長文檔的能力表現出越來越大的興趣。隨着各種長文本技術和模型架構的出現,對模型的長文本能力進行精確而詳細的評估變得越來越重要。

然而,現有的長文本評估基準(如 L-Eval 和 LongBench)基於開源數據集構建長文本測試集,主要側重於質量保證和摘要任務。這些數據集包括不同長度(從 2k 到 32k+ 不等)的測試樣本,這些樣本混雜在一起,使得在不同長度範圍內評估模型能力具有挑戰性。此外,這些數據集也沒有涵蓋最新 LLM 聲稱可以實現的超長設置(100k 以上 token)。

上海 AI Lab 和上海交通大學的研究團隊提出了一種長度適應性基準 Ada-LEval,用於評估 LLM 的長上下文理解能力。Ada-LEval 包括兩個具有挑戰性的子集:TSort 和 BestAnswer,可對 LLM 的長上下文能力進行更可靠的評估。這些基準支持對測試用例長度的複雜操作,可以輕鬆生成多達 128k token 的文本樣本。

他們用 Ada-LEval 評估了 4 個先進的閉源 API 模型和 6 個開源模型。評估結果表明了當前 LLM (尤其是在超長上下文設置中)的侷限性。

論文鏈接:https://arxiv.org/abs/2404.06480

Github 地址:https://github.com/open-compass/Ada-LEval

【卡內基梅隆大學、Meta 新研究:使用“圖生文”評估“文生視覺”】

儘管生成式人工智能領域取得了重大進展,但由於缺乏有效的衡量標準和標準化基準,綜合評估仍具有挑戰性。

爲此,來自卡內基梅隆大學和 Meta 的研究團隊提出了 VQAScore,使用視覺問答(VQA)模型,通過計算“此圖是否顯示文本?”這類問題的“是”的概率來產生對齊分數。儘管 VQAScore 比現有技術更簡單,但使用現成模型計算的 VQAScore 在 8 個圖像-文本對齊基準中都取得了 SOTA。有趣的是,儘管他們只使用圖像進行訓練,VQAScore 也可以將文本與視頻和 3D 模型對齊。

此外,他們還提出了一個更具挑戰性的基準——GenAI-Bench,其包含 1600 個組合文本提示,需要解析場景、對象、屬性、關係以及比較和邏輯等高階推理,爲 Stable Diffusion、DALL-E 3 和 Gen2 等圖像和視頻生成模型提供了 15000 多項人類評分。

論文鏈接:https://arxiv.org/abs/2404.01291

項目地址:https://linzhiqiu.github.io/papers/vqascore/

【IsoBench:基於同構表示的多模態基礎模型基準測試】

當前,基礎模型在僅使用文本或同時使用圖像和文本輸入時,可以表現出令人印象深刻的能力。但是,它們的能力會隨着輸入模態的不同而改變嗎?

來自杜克大學、南加州大學的研究團隊提出了一個基準數據集 IsoBench,其中包含數學、科學、算法和遊戲四大領域的問題。每個示例都有多種同構輸入表示,如視覺、文本和數學表示。IsoBench 提供細粒度的反饋,從而診斷由表示形式造成的性能差距。

研究團隊表示,在各種基礎模型中,在同一問題上,模型對文本表示形式的偏好是一致的。最突出的是,在對所有 IsoBench 問題進行評估時,當輸入圖片而不是文本時,Claude-3 Opus 的性能要差 28.7 分,GPT-4 Turbo 要差 18.7 分,Gemini Pro 要差 14.9 分。此外,研究團隊也介紹了兩種提示技術——IsoCombination 和 IsoScratchPad,這兩種技術通過考慮不同輸入表述的組合和轉換來提高模型性能。

論文鏈接:https://arxiv.org/abs/2404.01266

第 10 章 其他

【智譜AI、清華團隊提出 ChatGLM-Math,增強 LLM 解決數學問題的能力】

大型語言模型(LLMs)已經展示出對人類語言的出色學習能力,但在需要解決數學問題的實際應用中仍然表現不佳。雖然先前的研究開發了許多策略和數據集來提高 LLM 的數學能力,但要同時保持和提高已部署 LLM 的語言和數學能力仍然是一項挑戰。

在這項工作中,來自智譜AI 和清華大學的研究團隊,定製了“自我批判”(Self-Critique)流程,在 LLM 的對齊階段解決了這一挑戰。他們首先從 LLM 自身訓練一個通用的數學批判模型,從而提供反饋信號;然後,依次對 LLM 自身生成的數據收集採用拒絕採樣微調(rejective fine-tuning)和直接偏好優化。

基於 ChatGLM3-32B,他們在學術數據集和新創建的挑戰性數據集 MathUserEval 上進行了一系列實驗。結果表明,這一流程顯著增強了 LLM 的數學問題解決能力,同時還提高了其語言能力,性能超過了可能是其兩倍大的 LLM。

論文鏈接:https://arxiv.org/abs/2404.02893

GitHub 地址:https://github.com/THUDM/ChatGLM-Math

【Meta 新研究:大模型的端到端推理加速】

來自 Meta 的研究團隊及其合作者,提出了一種端到端的大型語言模型(LLM)推理加速解決方案——LayerSkip。

首先,在訓練過程中,他們採用了層間丟棄技術,早期層間丟棄率較低,後期層間丟棄率較高。其次,在推理過程中,他們證明這種訓練方法提高了早期退出的準確性,而無需在模型中添加任何輔助層或模塊。第三,他們提出了一種新型自我推測解碼方案,即在早期層退出,並通過模型的其餘層進行驗證和校正。與其他推測式解碼方法相比,該方法佔用的內存更少,並能從共享計算以及草稿和驗證階段的激活中獲益。

他們在不同大小的 Llama 模型上進行了不同類型的訓練實驗:從頭開始預訓練、持續預訓練、針對特定數據域的微調以及針對特定任務的微調。他們驗證了推理解決方案,結果表明,CNN/DM 文檔的摘要處理速度提高了 2.16 倍,編碼速度提高了 1.82 倍,TOPv2 語義解析任務的速度提高了 2.0 倍。

論文鏈接:https://arxiv.org/abs/2404.16710

【超越思維鏈(CoT),大模型的“Chain-of-X”範式調查】

思維鏈(CoT)是一種被廣泛採用的提示方法,能激發大型語言模型(LLM)令人印象深刻的推理能力。受 CoT 的順序思維結構的啓發,人們開發了許多 Chain-of-X (CoX) 方法,從而應對涉及 LLM 的不同領域和任務中的各種挑戰。

在這項工作中,來自上海交通大學、加州大學聖地亞哥分校的研究團隊及其合作者,全面考察了不同背景下的 LLMs Chain-of-X 方法。具體來說,他們按照節點分類法(即 CoX 中的 X)和應用任務對這些方法進行了分類。他們還討論了現有 CoX 方法的發現和影響,以及潛在的未來方向。

論文鏈接:https://arxiv.org/abs/2404.15676

【SnapKV:免微調,將 KV 緩存的大小降到最低】

目前,大型語言模型(LLMs)在處理大量上下文方面取得了顯著進展,其中鍵值(KV)緩存在提高其性能方面發揮了重要作用。然而,隨着輸入長度的增加,KV 緩存的增長給內存和時間效率帶來了挑戰。

爲此,來自伊利諾伊大學厄巴納香檳分校、Cohere 和普林斯頓大學的研究團隊,提出了一種創新的免微調方法 SnapKV,有效地將 KV 緩存的大小降到最低,同時在實際應用中產生了相當的性能。

他們發現,該模型中的每個注意力頭在生成過程中會持續關注特定的提示注意力特徵。同時,這種魯棒性模式可以從位於提示語末尾的“observation”窗口中獲得。利用這一洞察力,SnapKV 通過爲每個注意力頭選擇重要的 KV 位置集羣來自動壓縮 KV 緩存。

該方法大大減少了處理長輸入序列時不斷增加的計算開銷和內存佔用。具體來說,在處理 16K token 輸入時,SnapKV 實現了穩定的解碼速度,與基線相比,生成速度提高了 3.6 倍,內存效率提高了 8.2 倍。同時,在處理 16 個長序列數據集時,它的性能與基線模型相當。此外,只需稍作改動,SnapKV 就可以在單個 A100-80GB GPU 上實現處理多達 380K 的上下文 token,在 Needle-in-a-Haystack 測試中表現出的準確率下降可以忽略不計。進一步的綜合研究表明,SnapKV 具有實際應用的潛力。

論文鏈接:https://arxiv.org/abs/2404.14469

【微軟、清華團隊提出多頭混合專家 MH-MoE】

稀疏混合專家(SMoE)模型可在不顯著增加訓練和推理成本的情況下擴展模型容量,但存在以下兩個問題:專家激活率低,只有一小部分專家被激活用於優化;缺乏對單個 token 中多個語義概念的細粒度分析能力。

來自微軟、清華大學的研究團隊提出了多頭混合專家(MH-MoE),它採用多頭機制將每個 token 分割成多個子 token。然後,這些子 token 被分配給一組不同的專家並由它們並行處理,然後無縫地重新整合爲原始 token 形式。多頭機制使模型能夠集體關注不同專家的各種表徵空間的信息,同時顯著提高專家激活度,從而加深對上下文的理解並減輕過度擬合。此外,MH-MoE 易於實現,並與其他 SMoE 優化方法解耦,易於與其他 SMoE 模型集成,從而提高性能。

以英語爲重點的語言建模、多語言語言建模和掩碼多模態建模任務的大量實驗,證明了 MH-MoE 的有效性。

論文鏈接:https://arxiv.org/abs/2404.15045

【英偉達提出擴散模型採樣新方法 Align Your Steps】

擴散模型已成爲視覺領域及其他領域先進的生成建模方法。然而,擴散模型的一個缺點是採樣速度慢,需要通過大型神經網絡進行多次連續的函數評估。擴散模型的採樣可以看作是通過一組離散的噪聲水平(即採樣時間表)來求解微分方程。過去的研究主要集中於推導高效的求解器,但很少關注如何找到最佳採樣時間表,所有文獻都依賴於手工製作的啓發式方法。

爲此,來自英偉達的研究團隊提出了一種通用的原則性方法—— Align Your Steps,來優化擴散模型的採樣計劃,從而獲得高質量的輸出。他們利用隨機微積分的方法,找到了針對不同求解器的擴散模型和數據集的最佳時間表。他們使用各種不同的採樣器,在多個圖像、視頻和 2D 玩具數據合成基準上評估了新方法,並觀察到該優化時間表優於以前的手工製作時間表。他們的方法展示了採樣計劃優化尤其是在幾步合成機制中尚未開發的潛力。

論文鏈接:https://arxiv.org/abs/2404.14507

項目地址:https://research.nvidia.com/labs/toronto-ai/AlignYourSteps/

【TriForce:利用分層投機解碼無損加速長序列生成】

最近,隨着大型語言模型(LLMs)被廣泛應用於長內容生成,對高效長序列推理支持的需求日益增長。

然而,爲避免重複計算而存儲的鍵值(KV)緩存已成爲一個關鍵瓶頸,其大小隨序列長度呈線性增長。由於 LLM 的自動遞歸特性,每生成一個 token 就會加載整個 KV 緩存,從而導致計算核心利用率低而延遲高。雖然已經提出了各種 KV 緩存壓縮方法來緩解這一問題,但這些方法都會導致生成質量下降。

來自卡內基梅隆大學和 Meta 的研究團隊提出了一種可擴展至長序列生成的分層推測解碼系統 TriForce。這種方法通過檢索利用原始模型權重和動態稀疏 KV 緩存作爲草稿模型,作爲層次結構中的中間層,並由更小的模型進一步推測,從而減少其草稿延遲。TriForce 不僅爲 Llama2-7B-128K 帶來了令人印象深刻的速度提升,在 A100 GPU 上實現了高達 2.31 倍的速度,而且還展示了在處理更長上下文時的可擴展性。在兩個 RTX 4090 GPU 上的卸載設置中,TriForce 實現了 0.108s/token 的速度,僅爲 A100 上自動迴歸基線速度的一半,而在優化的卸載系統上則達到了 7.78 倍。 此外,TriForce 在單個 RTX 4090 GPU 上的性能是 DeepSpeed-Zero-Inference 的 4.86 倍。

論文鏈接:https://arxiv.org/abs/2404.11912

GitHub 地址:https://github.com/Infini-AI-Lab/TriForce

【Google DeepMind 新研究:多樣本上下文學習】

目前,大型語言模型(LLMs)最擅長的是 “少樣本上下文學習”(ICL)—— 即在推理時從上下文中提供的少數幾個示例中學習,而不進行任何權重更新。新擴展的上下文窗口允許用數百或數千個案例來研究 ICL——多樣本模式,從少樣本到多樣本,在各種生成性和判別性任務中觀察到顯著的性能提升。

然而,雖然多樣本 ICL 前景廣闊,但可能會受到人類生成示例可用數量的瓶頸制約。

爲此,來自 Google DeepMind 的研究團隊探索了兩種新的設置:強化 ICL 和無監督 ICL。強化 ICL 使用模型生成的思維鏈理由來代替人類示例;無監督 ICL 則完全取消了提示中的理由,只用特定領域的問題來提示模型。他們發現,強化型和無監督型 ICL 在多輪推理,尤其是在複雜推理任務中都非常有效。

實驗證明,與少樣本學習不同,多樣本學習在覆蓋預訓練偏差方面是有效的,並可以學習具有數值輸入的高維函數。他們的分析還揭示了下一個 token 預測損失作爲下游 ICL 性能指標的侷限性。

論文鏈接:https://arxiv.org/abs/2404.11018

【清華、榮耀提出 SparseDM:邁向稀疏高效擴散模型】

擴散模型已被廣泛應用於數據生成任務中,然而,其部署耗時長、推理時間長以及對大內存的要求,限制了其在移動設備上的應用。

爲了提高擴散模型的部署效率,來自清華大學、榮耀的研究團隊提出了一種基於改進的 Straight-Through Estimator 的方法。

具體來說,他們在預訓練好的擴散模型的卷積層和線性層中添加稀疏掩碼,然後在微調階段使用設計漸進稀疏性進行模型訓練,並開關推理掩碼,從而支持在推理過程中根據 FID 和 MACs 要求靈活選擇稀疏性。在基於 Transformer 的 SOTA 模型的四個數據集上進行的實驗表明,這一方法可以將 MACs 降低 50%,而 FID 平均僅增加 1.5。在其他 MACs 條件下,與其他方法相比,FID 也低於 1∼137。

論文鏈接:https://arxiv.org/abs/2404.10445

【谷歌推出新型 Transformer 架構:反饋注意力就是工作記憶】

雖然 Transformer 給深度學習帶來了革命性的變化,但二次注意力複雜性阻礙了其處理無限長輸入的能力。

谷歌研究團隊提出了一種新型 Transformer 架構“反饋注意力記憶”(Feedback Attention Memory,FAM),其利用反饋環路使網絡能夠關注自身的潛在表徵。這種設計促進了 Transformer 工作記憶的出現,使其能夠處理無限長的序列。TransformerFAM 不需要額外的權重,因此可以與預訓練模型無縫集成。

實驗表明,TransformerFAM 顯著提高了 Transformer 在各種模型大小(1B、8B 和 24B)的長上下文任務中的性能。

論文鏈接:https://arxiv.org/abs/2404.09173

【高通新研究:提高多模態大型語言模型的推理速度】

多模態大型語言模型(MLLMs)的推理速度很慢,這是因爲其大型語言模型骨幹存在內存帶寬瓶頸,並且會自動遞歸生成 token。

來自高通公司的研究團隊探討了如何應用推理解碼來提高 MLLM(特別是 LLaVA 7B 模型)的推理效率。研究表明,純語言模型可以作爲使用 LLaVA 7B 進行推理解碼的良好草稿模型,從而繞過草稿模型中圖像 token 及其相關處理組件的需要。在三個不同任務中進行的實驗表明,推理解碼可實現高達 2.37...