Nature新研究:大模型越大,越愛胡說八道

智東西編譯 徐豫編輯 心緣

智東西9月29日消息,國際頂尖科學學術期刊Nature(《自然》)9月25日刊登了一篇有關AI大模型“腦霧”現象的研究。一個來自西班牙的研究團隊發現,幾個參數量更大、版本更新的AI大模型,誤答比例超60%。

其研究對象包括美國AI大模型獨角獸OpenAI的GPT大模型、美國元宇宙巨頭Meta的Llama大模型,以及由美國明星AI創企Hugging Face參與創立的AI研究組織BigScience,推出的BLOOM大模型。

“腦霧”通常用來描述一種大腦功能下降的狀態,可能導致人們短暫出現一些認知功能障礙。在AI界,“腦霧”二字用來類比AI系統在處理某些任務時,會間歇性地失靈,使得生成結果準確性和響應效率都低於正常水平。

這3家主流人工智能(AI)大模型的產品不斷升級迭代。據研究數據顯示,經過優化後的AI大模型雖然基本上做到有問必答,但遇到超綱的問題時會錯答、亂答,而不是像以前那樣逃避回答。這大幅削弱了AI大模型的可信度。

與此同時,該研究還發現用戶難以分辨這些AI回答的真實性,可能會錯信AI聊天機器人的說法,以至於被混淆視聽。

這項研究的論文標題爲《參數量更大且學習能力更強的大語言模型的可靠性降低(Larger and more instructable language models become less reliable)》,作者包括Lexin Zhou,Wout Schellaert,Fernando Martínez-Plumed,Yael Moros-Daval,Cèsar Ferri和José Hernández-Orallo。

論文地址:https://www.nature.com/articles/d41586-024-03137-3

一、GPT-4等AI大模型,升級後“腦霧”卻更嚴重了

José Hernández-Orallo是一位AI行業的資深人士,也是這篇論文的作者之一。據他介紹,該研究團隊選擇了3個有代表性的AI大模型作爲研究對象,分別是OpenAI的GPT,Meta的Llama,以及由美國AI研究組織BigScience研發的開源模型BLOOM。研究範圍包括這些AI大模型的早期原始版本和經過優化的版本。

研究人員對這些AI大模型開展了數千次測試。其測試內容涵蓋算術、字謎、地理和科學等領域的問題。同時,他們還設置了諸如“將列表內容按字母順序排列”的任務,以評估AI大模型的信息轉化能力。

除此之外,他們還參考人們的主觀感受來區分提問難度。例如,人們普遍認爲,一些有關加拿大多倫多的問題,比一些有關墨西哥的冷門小鎮Akil的問題更簡單易答。

從測試結果可以得知,AI大模型的參數量越大、版本越新,其回答的準確度越高,但隨着問題難度逐步增加,其回答的準確度有所下降。這大致與研究人員的預期相符。

然而,研究人員發現這些主流的AI聊天機器人即使經過優化,遇到無法回答的問題時還是會傾向於生成錯誤答案,而不是直接承認不清楚、不知道。

在面對非常難的問題時,AI大模型選擇不回答可能是一個明智之舉。不過,研究人員在測試的AI大模型中,並未發現明顯的迴避提問的趨勢。相反地,GPT-4等AI大模型幾乎回答了所有提問。

事實上,這些經過優化的AI大模型版本,反而誤答的情況更嚴重。在所有誤答和不答的情況中,幾個經過微調的版本給出錯誤答案的比例甚至超過了60%。

與此同時,研究人員還發現AI大模型面對簡單的提問,有時也會出現“腦霧”現象。這也意味着,用戶使用這些AI大模型時不存在所謂的“安全操作範圍”,無法確保AI給出的答案是對的。

二、可能有10%到40%的用戶,聽信了AI大模型生成的錯誤言論

除了AI大模型本身“犯迷糊”,該研究還發現,人們通常也難以發現AI回答中的錯誤。

爲了測試人們是否能自己發現AI的“腦霧”行爲,研究人員讓人們隨機判斷這些回答是正確的、錯誤的、還是逃避回答。

然而事實上,無論這些問題的難度如何,人們經常誤判,將不準確的答案當作正確答案。測試結果顯示,人們誤判的頻率大約介於10%到40%。

Hernández-Orallo稱:“人類自身無法有效監督這些AI大模型的演化。”他認爲,用戶日常可能會過分高估和信任AI聊天機器人的能力,而這會帶來危險的後果。

三、人爲劃定AI大模型的作答範圍,超綱一律答“不知道”

Hernández-Orallo提議,AI開發者應着重提升AI大模型在處理簡單問題時的整體表現,並且引導AI聊天機器人拒絕回答一些較爲困難的問題,從而讓用戶更容易判斷,在哪些情況下AI助手是值得信賴的。人們要懂得在哪個範圍內適合使用AI,而在哪個範圍內AI助手難以勝任工作。

他進一步解釋道,雖然訓練AI聊天機器人處理複雜問題的能力,不僅表面上令人印象深刻,還能在排行榜上有不錯的競爭力,但有時並不管用。

OpenAI最新的o1大模型給他留下了深刻的印象。但他發現,儘管該模型可以執行兩個非常大的數字的乘法運算指令,但是它給出了一個錯誤的答案。

在Hernández-Orallo看來,這個問題可以通過設定一個閾值上線來解決,當AI聊天機器人遇到超出這個閾值的複雜問題,直接回復“我不知道”就好。

四、AI大模型越來越擅長不懂裝懂,會用觀點而非事實作答

AI大語言模型(LLM)在回答問題時會犯錯,或者出現“腦霧”的情況,已經引起了很多人的注意。

來自西班牙瓦倫西亞AI研究所的Hernández-Orallo及其同事共同研究了,AI大模型不斷迭代優化後,其“腦霧”現象是如何隨之變化的。

這裡AI大模型的優化包括更大的參數量或決策節點、使用了更多的訓練數據、消耗了更多的算力等情況。該研究團隊還跟蹤分析了AI大模型出現“腦霧”的頻率高低,是否與人們所認爲的問題難度相匹配,以及是否與人們發現AI回答錯誤的頻率相對應。

該研究團隊發現,採用強化學習等方式人爲微調後的AI大模型版本,其生成答案的準確度整體上有所提高。但似乎不能高興得太早,這些AI大模型的錯誤率也在同步增加。

研究發現一些原本AI大模型選擇“逃避回答”的問題,過去會用“我不知道”或者轉移話題來解決,但現在更多是通過給出一個錯誤答案來應付。這使得這些AI大模型出現“腦霧”情況的比例增加,反而變得更加不可靠。

Hernández-Orallo稱:“現在這些AI大模型基本上有問必答,這意味着生成更多正確答案的同時,錯誤答案卻也更多了。”換句話說,當聊天的話題超出了一個AI聊天機器人現有的知識儲備,它輸出觀點的傾向比過去更明顯。

在英國格拉斯哥大學(the University of Glasgow)攻讀科學與技術專業的哲學家Mike Hicks,將這種“腦霧”現象稱爲“胡扯”,即這些AI大模型越來越擅長不懂裝懂。

結語:針對專業領域微調的AI聊天機器人,其“腦霧”頻率有效降低

現在已有部分AI大模型採取了與設定閾值類似的方法。它們遇到超出知識範圍的問題後,會回答“我不知道”,或者“我沒有足夠的信息來解答這個問題”。

哥倫比亞南卡羅來納大學(the University of South Carolina)的計算機科學家Vipula Rawte稱,基本上所有AI開發者都致力於減少AI大模型的“腦霧”現象,有時還會特意優化這一點。包括醫學用途在內,一些針對專業領域設計的AI聊天機器人,其回答機制通常更嚴謹,以免它們亂答超綱問題。

然而,Vipula Rawte也補充說,如果AI開發者想要銷售通用的AI聊天機器人,那麼這種更保守的回答機制,一般情況下不是他們會選擇的賣點。

來源:Nature