新算法:讓大型語言模型協作更智能高效!

您是否曾被問到一個您只知道部分答案的問題?

爲了給出更明智的回答,您最好的做法是給在該主題上知識更豐富的朋友打電話。

然而,一直以來,教導 LLM 識別何時應與另一個模型在答案方面進行協作都很困難。

麻省理工學院計算機科學與人工智能實驗室(CSAIL)的研究人員並非使用複雜的公式或大量標記數據來闡明模型應在何處協同工作,而是設想出了一種更有機的方法。

當通用基礎 LLM 生成答案時,Co-LLM 會審查其響應中的每個單詞(或標記),查看從專家模型調用更準確答案的位置。

這個過程使得對諸如醫療提示、數學和推理問題等的回覆更加準確。

爲了確定基礎模型何時需要專家模型的幫助,該框架運用機器學習來訓練一個“切換變量”,即一種能夠指示兩個 LLM 響應中每個單詞能力的工具。

該切換就如同一個項目經理,找到應當調用專家的區域。

例如,如果您讓 Co-LLM 列舉一些已滅絕熊類物種的例子,兩個模型會一起起草答案。

通用 LLM 開始拼湊回覆,切換變量在能夠從專家模型中插入更好標記的部分進行干預,比如添加熊類物種滅絕的年份。

“藉助 Co-LLM,我們實際上是在訓練一個通用的 LLM,使其在需要時能夠‘聯繫’專家模型,”麻省理工學院電氣工程和計算機科學專業的博士生、CSAIL 附屬成員香農·沈(Shannon Shen)說道,他是一篇關於該方法的新論文的主要作者。研究結果已在 發佈於 arXiv 預印本服務器。

“我們使用特定領域的數據來教導基礎模型瞭解其對應模型在生物醫學任務、數學和推理問題等領域的專業知識。這個過程會自動找出基礎模型難以生成的數據部分,然後指示基礎模型切換至專家 LLM,該專家 LLM 是在類似領域的數據上進行預訓練的。通用模型提供‘支架’生成,當它調用專業 LLM 時,它會提示專家生成所需的標記。我們的研究結果表明,LLM 會自然而然地學習協作模式,就像人類知道何時求助專家來填補空白一樣。”

想象一下,讓一個通用的 LLM 說出一種特定處方藥的成分。它可能會答錯,這就需要專業模型的專業知識了。

爲了展示 Co-LLM 的靈活性,研究人員使用了諸如 BioASQ 醫療數據集之類的數據,把基礎 LLM 與不同領域的專家 LLM(比如 Meditron 模型)相結合。這使得該算法能夠幫助回答生物醫學專家通常會收到的詢問,例如說出導致特定疾病的機制。

例如,如果您僅要求一個簡單的大型語言模型說出特定處方藥的成分,它可能會答錯。藉助專門研究生物醫學數據的模型所具備的專業知識,您會得到更準確的答案。協同大型語言模型還會提醒用戶在哪裡複查答案。

協同大型語言模型性能提升的另一個例子:當承擔解決像“a3 · a2,如果 a=5”這樣的數學問題時,通用模型錯誤地計算答案爲 125。由於協同大型語言模型促使該模型與一個稱爲 Llemma 的大型數學大型語言模型進行更多協作,它們一起確定正確的解決方案是 3,125。

協同大型語言模型給出的回答比經過微調的簡單大型語言模型以及獨立工作且未經調整的專業模型更準確。協同大型語言模型可以指導兩個訓練方式不同的模型一起工作,而其他有效的大型語言模型協作方法,如“代理調整”,需要其所有組件模型以類似的方式進行訓練。此外,這個基線要求每個模型同時用於生成答案,而麻省理工學院的算法只是針對特定標記激活其專家模型,進而實現更高效的生成。

麻省理工學院研究人員的算法強調,更緊密地模仿人類團隊合作可以提高多大型語言模型協作的準確性。爲了進一步提高其事實的準確性,團隊可能會借鑑人類的自我糾正方式。他們正在考慮一種更強大的推遲方法,當專家模型給出不正確的響應時可以回溯。這種升級將允許協同大型語言模型進行路線校正,從而使算法仍能給出令人滿意的答覆。

“Co-LLM 爲學習在兩個模型之間做出選擇以提高效率和性能提供了一種有趣的方法,”多倫多大學副教授、Vector 研究所副研究主任 Colin Raffel 說道,他未參與此項研究。

“由於路由決策是在令牌級別做出的,Co-LLM 提供了一種精細的方式,把困難的生成步驟推遲到更強大的模型。

模型-令牌級路由的獨特組合還提供了類似方法所欠缺的大量靈活性。Co-LLM 爲旨在開發專門模型的生態系統從而超越昂貴的單片 AI 系統的重要工作作出了貢獻。