斯坦福聯合英偉達提出擴散語言模型,將困惑度提升自迴歸模型水平

自迴歸模型是一種典型的序列生成模型,其生成過程必須按照嚴格順序進行,根據先前生成的內容不斷來預測下一個詞。這種方式雖然在許多任務中表現良好,但由於每一步生成都依賴前面的結果,因此容易累積誤差,且生成過程必須是嚴格的順序,限制了生成的靈活性。

與此相對,離散擴散模型則採用了一種與自迴歸不同的生成範式,從一個完全隨機的噪聲開始,逐步去噪以生成目標文本 [1]。其優勢在於能夠並行生成,並且在理論上具有更快的採樣速度。

但現有的離散擴散模型在生成質量上仍然無法與自迴歸模型媲美,因爲其通常將去噪的聯合分佈參數化爲獨立的逐個標記分佈,這忽視了序列級別的關聯性,從而導致了嚴重的解碼錯誤累積,並阻止用戶使用少量去噪時間進行快速採樣。

圖丨離散去噪擴散模型的正向與反向過程(來源:arXiv)

因此,如何改善誤差積累問題,進一步提高模型性能,對於離散擴散模型的進一步發展具有重要意義。

針對這一問題,斯坦福大學與英偉達的聯合團隊於近期提出了提出了一種名爲基於能量的擴散語言模型(Energy-based Diffusion Language Model, EDLM)的新方法。

相關論文以《基於能量的文本生成擴散語言模型》(Energy-Based Diffusion Language Models for Text Generation)爲題發表在預印本網站arXiv上 [2]。

斯坦福大學計算機科學系徐民凱博士是第一作者兼通訊作者。

圖丨相關論文(來源:arXiv)

如前所述,在現有的離散擴散模型中,生成過程是通過從完全被掩碼的序列開始,然後逐步去噪來生成完整的文本。然而,這種去噪的聯合分佈通常被簡化爲各個標記的獨立分佈,這種方式忽視了整個序列中標記之間的複雜依賴關係,使得在去噪過程中容易產生累積誤差,從而降低生成的質量和模型的準確性。

研究團隊給出的解決方案是——在擴散過程引入基於能量的模型(Energy-Based Model,EBM)建模整個序列的去噪分佈,更好地捕捉序列中的標記之間的關聯性。

而這主要歸功於能量模型的靈活性和有效性。這種來源於統計物理學的模型可以通過定義一個能量函數,將低能量與高概率對應(反之亦然),根據能量的相對值便可有效地捕捉序列內的複雜關聯性,而無需依賴標準化的概率分佈。

在訓練過程中,能量模型的目標是最小化損失函數,使得與數據相符的能量值低,而與數據不符的能量值高。這種方式使得模型能夠專注於優化能量函數,自然地反映出標記之間的依賴關係,而不必在概率框架內進行復雜建模。

但是,訓練基於能量的模型時,對於配分函數的處理一直以來都是一個難題,通常使用的辦法是通過馬爾可夫鏈蒙特卡洛(MCMC)的採樣方法來近似參與函數,但在處理高維數據時,這種方法計算起來非常困難。

(來源:Predicting structured data)

課題組主要採用了兩種主要方法來獲取能量函數的參數。

其一是利用預訓練的自迴歸模型,即將預訓練的自迴歸語言模型作爲能量函數來評估每個去噪步驟中序列的可能性,這種方式無需重新訓練,能夠有效利用已有的語言模型知識。

其二是通過雙向 Transformer 進行噪聲對比估計微調,通過引入一個額外的能量函數,並利用噪聲對比估計方法對其進行微調,以更好地捕捉序列中的標記間依賴關係。這種設計允許 EDLM 在保持生成靈活性的同時,減少解碼錯誤。

此外,研究人員還通過引入一種高效的並行採樣算法來加速生成過程。

在傳統的擴散模型中,由於去噪步驟的獨立性,通常需要大量的採樣步驟來確保生成的文本質量,這使得生成過程非常耗時。

而 EDLM 使用一種稱爲自正則化的重要性採樣的方法來解決這一問題。在每一個去噪步驟中,EDLM 會並行採樣多個可能的候選序列狀態,並使用能量函數計算這些候選序列的“能量值”,然後基於這些能量值選擇最優的候選。

這種方法不僅能夠減少生成所需的採樣步驟,還能夠提高採樣效率,從而讓整個生成過程比傳統的擴散模型更快。

爲了驗證 EDLM 的有效性,團隊在 Text8、OpenWebText 等多個語言建模基準數據集上進行了實驗。

結果顯示,在生成困惑度(Perplexity)這一衡量生成質量的指標上,EDLM 不僅優於現有的擴散模型,並接近甚至達到自迴歸模型的水平。

此外,在保持生成性能的情況下,EDLM 的採樣速度比傳統擴散模型提升了約 1.3 倍,這進一步驗證了其有效性。

圖丨 EDLM 的分析和消融研究(來源:arXiv)

總結來說,這種模型成功地將能量模型與擴散模型結合,通過有效的去噪和並行採樣技術,實現了更好的生成質量和採樣效率。未來,這種將能量模型引入擴散生成的新方法有望進一步推動並行生成技術的發展。

參考資料:

1. https://arxiv.org/abs/2107.03006

2. https://arxiv.org/abs/2410.21357

3.https://www.researchgate.net/profile/Marcaurelio-Ranzato/publication/216792742_A_Tutorial_on_Energy-Based_Learning/links/0912f50c6862425435000000/A-Tutorial-on-Energy-Based-Learning.pdf

運營/排版:何晨龍