大語言模型會推理嗎?

大語言模型很有用,但不能解決人工智能的基本問題,包括推理。

撰文|王培(美國天普大學計算機系)

自從ChatGPT在兩年前橫空出世,各種大語言模型一次又一次地刷新人們的認知,以至於連 “通用人工智能即將到來” 都從狂人囈語成了陳詞濫調,已經不足以被用作 “震驚體” 的標題了。即使是見慣此間風雲變幻的人,對此也難免生出恍如隔世之感。今年的諾貝爾獎兩次授予了其背後的人工神經網絡技術,更說得上是 “烈火烹油,鮮花着錦” 。

但與此同時,在學界內部一直存在的質疑聲音也開始增加音量。最新的《人工智能雜誌》 (世界上最大的人工智能學術組織AAAI的會員刊物) 的封面文章就直言關於 “可解釋的人工智能” 的研究已經陷入泥潭[1],而 “難以解釋”正是深度神經網絡的一個令人詬病之處。近期蘋果公司研究人員的一篇研究報告更是聲稱大語言模型根本不會邏輯推理[2],因而掀起了軒然大波。

雙方辯詞

關於深度神經網絡是否會推理的爭論已經進行若干年了。蘋果公司研究部的文章[2]測評了大語言模型在數學領域中的推理能力,其材料是經過 “微調” 的一批原本已經能被大語言模型較好解決的 “數學應用題”。用我們在小學很熟悉的那種題目做例子,其修改包括(1)替換其中的專有名詞 (就像把關於 “小紅” 的問題改成關於 “小明” 的) ,(2)改變其中的數字 (就像把題目中的 “3.5小時” 改成 “2.8小時” ) ,(3)添加無關信息 (就像在關於 “小紅登山” 的問題中加上關於 “小明釣魚” 的描述) 。儘管這種修改不涉及這些數學問題的邏輯結構,卻造成了答案正確率的大幅下滑。文章的結論是大語言模型既不理解這些問題中的數學概念,也不能進行邏輯推理,而僅僅是將面對的問題和訓練數據中的問題相比較而已。因此,即使那些正確答案也僅僅體現了系統的記憶和匹配能力,而非其邏輯推理能力。我在去年評論ChatGPT時[3]就說過它不會邏輯推理,理由是其結論質量取決於相關訓練數據的多寡,所以說只能算是總結了人們的大量推理過程—— “無他,唯手熟爾”。這也正是[2]中的測評結果所佐證的。

但這個測評結果尚且不足以爲此爭論一錘定音。那些認爲大語言模型能推理的人在這個問題上的推理過程大致是這樣的:“某些問題是人們通過推理來解決的,因此它們的解決需要推理能力。現在大語言模型解決了這些問題,因此它們會推理”。根據這種看法,大語言模型已經在很多問題上顯示出遠超常人的推理能力。在這種時候,還以某些錯誤結論爲由說它不能推理,這總難免 “以偏概全” 和 “吹毛求疵” 之嫌。以相關技術發展之神速,怎麼知道下面一個版本就堵不上這些漏洞?OpenAI不是已經把 “推理” 列爲當前的主攻方向了嗎?

在至今的辯論中,正反雙方的主要舉證手段還是各自尋找大語言模型在推理中的各種成功或失敗的案例。這種做法的好處是證據具體和可驗證,但總有管中窺豹之感。這些成功與失敗在多大程度上揭示了系統的一般推理能力,而目前的缺陷中又有多少是可以被後面的研發所克服的?

何爲“推理”?

曾經有人說過,很多爭論其實都源於對基本概念的不同理解,而這也正是我前面很多文章都是從概念分析開始的原因 – 不是喜歡咬文嚼字,而是非如此不能抵達爭論的核心。

“推理” 通常被說成 “由已知判斷 (前提) 推出新判斷 (結論) 的過程”,但如果不對 “推出” 加以進一步限定,那顯然就過於寬泛了。把前提反過來讀一遍肯定不能算推理吧。這裡的“推出” 當然是指 “正確地推出”,但問題恰恰就在這裡:“正確” 與否是根據什麼標準確定的?

對推理的研究有兩個不同的學術傳統。

邏輯學和數學研究的是推理的規範性理論和模型,其目標是將推理的正確性 (也稱 “有效性”) 建立在一個體現理性的普適標準之上。傳統的推理有效性標準是 “保真”,即保證從真前提推出真結論,而一個邏輯系統就是由滿足這個標準的推理規則組成的。這些規則是抽象的,只關乎於前提和結論的形式,而與其內容無關,如在[3]中提到的,從前提 “A是B” 和 “B是C” 中推出結論 “A是C” 的正確性就不取決於其中的字母代表什麼東西。

心理學研究的是推理的描述性理論和模型,其目標是總結人類推理活動中所實際遵循的規律。這樣一來,其中的 “正確性” 就和其它經驗科學類似,是指 “理論預測符合實際觀察” 了。

儘管這兩類理論有一些相近結論 (要是完全不同就麻煩大了) ,但其間的差異也早就廣爲人知。其中典型的例子是我在[4]中介紹過的 “華生選擇任務”,這裡就不再重複了。

這兩個傳統在人工智能研究中都有體現。人工智能中的推理研究從一開始是基於以數理邏輯爲代表的規範性理論的,但爲了貼近人類的現實思維嘗試了各種 “修正”,也取得了一定的成功,儘管總的說來還是過於理想化,不足以處理各種複雜的實際問題。

與此不同,深度學習(包括大語言模型)中的推理則可以說是在一定程度上借鑑了描述性理論的精神,即根據人們的推理實踐(而非抽象的理性原則)來確定模型的行爲。即使如此,其中的具體做法仍和心理學完全不同。心理學和邏輯學一樣把一個推理過程看作由一系列推理步驟組成,其中每個步驟都有其可以識別、研究的規律,只是這種規律性體現在人們的實際行爲中,而未必能被某些抽象原則 (如 “保真”) 來統一解釋。由於神經網絡模型中的推理行爲是用人們解決實際問題時的前提和結論 (在大語言模型中往往體現爲語句間的先後順序) 以 “端到端” 的方式來訓練生成的,跳過了中間步驟,其正確性的標準也就是 “人們從給定前提中是否推出相同結論”,而不太在乎這些結論是如何逐步生成。在計算機強大的信息處理能力和海量訓練數據的支撐下,這種推理模型取得了令人矚目的成功,但同時也有若干令人詬病之處:

端到端訓練放棄了對中間步驟的管控,因此過程和結果難以理解。

對訓練數據的依賴造成了概括結論中的 “偏見”、“過擬合” 等問題。

在訓練數據不足的問題上靠和樣本的統計相似性猜測答案,正確性難以保證。

由於這些問題都是神經網絡模型的 “本性” 所決定的,因此無法用技術手段徹底解決。比如近期流行的 “思維鏈” 體現了填補中間步驟的努力,但這種 “鏈” 中的 “環節” 仍大多數是可以進一步分解的推理過程,而非基本的推理步驟,而且其正確性標準仍是由訓練數據來確立的,因此不具有普適性 (領域無關性) 。這次蘋果公司研究部的測評恰恰是要求這種描述性模型解決規範性理論 (數學) 中的推理問題,因此表現欠佳就不足爲怪了。

先天與後天

在推理的規範性模型和描述性模型的各種表面差異背後體現出的是對智能 (或者說 “認知”、“思維” 等等) 的先天因素和後天因素的不同觀點。儘管所有的人都同意二者不可或缺,但對各自的作用仍看法迥異。規範性模型中的推理規則基本是先天確定的 (儘管所用的推理前提可以後天獲得) ,而在描述性模型中的推理規則可以來自後天訓練 (儘管訓練所遵循的算法是先天給定的) 。具體到神經網絡模型,更是將 “推理” 看成問題的 “已知” 與 “結論” 的關係,而不再限定從已知到結論的生成過程。這種做法極大簡化了這種模型的構造和應用過程 (只需要提供訓練數據,而無須說明對問題的解法) ,因此是其成功的重要原因,但同時也是前面提到的那些問題的根源所在。

除了推理模型之外,這種對先天因素和後天因素的不同對待同樣出現在語言模型中。在對自然語言理解的研究中,開始佔統治地位的 “規則學派” (喬姆斯基學派) 認爲語言能力 (尤其是語法結構) 基本上是先天的,而後天的學習只起到 “激發潛能” 的作用,而目前佔上風的 “統計學派” (以神經網絡模型爲主要實現方式) 則認爲 “一切皆可學”,而所需的先天成分只剩下 (體現在學習算法中的) 對訓練數據的泛化能力。

如果進一步追根尋源,這種體現在不同領域中 (不限於上面提到的推理和語言) 對先天因素和後天因素的分別強調可以說各自體現了哲學中的理性主義和經驗主義,而這二者之間的關係既不是誰對誰錯這麼簡單,也不是能靠 “有機統一” 就可以糊弄過去的。對人工智能系統設計者來說,最重要的決定就包括區分哪些機制和內容要提前設計好,而哪些該留給訓練和教育。純粹遵循理性主義的系統往往過於刻板,無法處理環境的複雜性,而純粹遵循經驗主義的系統則又常常囿於過往的經歷片段,難以保證判斷的普適性。用推理規則來做比喻,前者就像全靠演繹推理解決問題,其優點是準確可靠 (“保真”) ,但超出預設前提的範圍就束手無策了,而後者就像全靠類比推理解決問題,其優點是靈活機變 (如果不在乎生拉硬拽,萬物皆可比) ,但常常陷入自相矛盾的境地。

在和人類智能相比較時,我認爲人工智能系統的 (先天) 設計應當遵循和人類接近的理性原則,但其具體行爲應當基於其自身 (後天) 經驗,而非試圖完全複製人類行爲。落實到我所設計的推理模型 “納思” 中 (見我以前的專欄文章) ,就是在設計中體現從人類推理行爲中抽象出來的推理規則,而不指望系統自身能夠學會它們。在另一方面,讓系統的信念、願望、概念完全來自於系統自身的經驗 (包括感知運動經驗和言語通信經驗) ,而不依靠事先植入的 “真理” 或 “事實”。簡單說來,對納思的設計就是試圖以一套類似於人類先天邏輯的推理規則爲元邏輯來實現智能。我不是說在人腦中有一套符號化的推理規則,而是說我們的自然推理過程是有規律可循的,而這些規律可以被整理成符號化的推理規則而不失其基本特徵。在這裡,一般意義下的 “邏輯” 和具體的“邏輯系統” 必須加以區別。邏輯學從開始就是研究普遍有效的推理、論辯規範的,而我們平時判斷某個論述是否 “符合邏輯” 也是這個意思。至於將 “推理有效性” 定義成 “保真”,並具體用符號語言描述成一個規則系統,則是對推理規範的一種特定理解。即使現有的所有邏輯系統都差強人意,“人類推理本無規律可言” 也不是必然結論。如果真是如此,爲什麼我們仍可能在一定程度上理解以至於接受他人 (包括古人和外國人) 的大量推理過程及其結果呢?

基於 “智能系統的推理遵循普適規則” 的信念,納思的推理機制被設計成一個規範性模型,其結論的正確性是根據納思所依據的理性原則來確定的,而不是非以人類的流行看法爲是非標準。但和傳統的規範性模型不同,納思的設計預設是系統需要在知識和資源相對不足的條件下適應環境,因此判斷一個具體結論的正確程度的根據是系統的過去經驗,而非客觀事實或未來經驗。這樣一來,納思從知識內容上說又是個描述性模型,只是其中總結的是其自身經驗,而非人類經驗。這樣做的結果是納思和各種傳統推理模型均有相似之處,但又都有根本性差別。

和大語言模型相比,納思的推理規則都是在設計過程中確定的,與系統經驗無關,也與應用領域無關。由於這些規則來自 “在知識和資源相對不足的條件下適應環境” 的需求,而人類的推理機制也是爲了滿足這一需求而進化出來的,因此納思的推理過程和結果都和人類有大量相似之處,因此是原則上可解釋的 (儘管對複雜問題不會很容易) 。由於納思的推理結論來自於系統經驗,其經驗侷限性當然也會造成偏見和誤判,但這種知識內容上的缺陷不等於系統推理能力的缺陷。

由於納思所遵循的 “先天邏輯” (稱爲 “非公理邏輯”,見[5]) 不同於數理邏輯,也不包含數學,系統仍需要通過學習來掌握這些理論,而這種學習是使用其先天邏輯來進行的,和對人工神經元網絡的訓練完全不同。如果讓納思在學習相應的課程後來做數學應用題,它也可能犯各種錯誤,但這些錯誤會更接近於小學生們所犯的,而非大語言模型所犯的。由於納思的研發還沒有到能對此進行實測的程度,所以可以將此當作一個尚待檢驗的預言。

推理能力的來源

根據上面的分析,大語言模型可以被看作一種特殊的描述性推理模型,它們通過總結人類相應行爲來完成某些推理任務。管這種能力叫做 “會推理” 不能完全算錯,但說它們 “不會推理,只會模式匹配” 應該說更準確,因爲它們的確是將一個人類需要通過逐步推理來完成的任務看作一個端到端的映射 (從輸入到輸出的函數) ,並通過和已知映射關係的匹配來完成任務的。儘管這兩種過程在解決問題的範圍上有很大的重合部分,其差別仍是不該無視的。如果硬要推廣 “推理” 這個詞的適用範圍,那也應該說大語言模型 “會推理,但不遵循任何邏輯”。有人認爲人工智能有不同於人類的邏輯,但要論證這一點,需要將其推理規則置於更基本的理性原則 (如 “保真”、“適應”) 之上,而至今我還沒有見到這種論證。

不是所有解決問題過程都可以被稱爲 “推理” 的。直觀說來,需要一步一步地 “推”,而每步都要有 “理” 才行。當然這種 “字面意思” 不是定義,但只是靠背誦或查詢答案來解決問題肯定不能算推理,儘管這些答案可能是前人通過推理得到的。大語言模型當然不是背誦或查詢這麼簡單,但離 “根據合理的規則或模式,逐步從已知生成答案” 這種對 “推理” 的傳統理解差得就更遠了,而這也就是說它們難以解釋或 “不會推理,只會模式匹配” 的原因。對實際應用而言,它們的 “推理能力” 對某些需求而言是夠用的,但對另一些則完全不夠。尤其是不能認爲這就算是實現了智能系統的 “推理” 功能了。即使對心理學中的推理研究都不能完全按大語言模型的辦法做,更不必談邏輯學和數學了。大語言模型在這些學科中仍然有用,但那是另一些用途 (比如總結現有研究結果) 。

這不是說大語言模型不能學習邏輯和數學知識。一個信息系統中的 “知識” 通常是存在於兩個層面上的,一般分別稱爲 “對象知識”(Object-level Knowledge)和 “元知識”(Meta-level Knowledge)。具體到傳統意義下的推理系統中來說,作爲推理前提和結論的知識屬於前者,通常是以語句的形式存在的,可以在系統運行過程中增刪和修改,而體現在推理規則中的知識屬於後者,通常是以程序的形式存在的,在系統運行過程中保持不變。在大語言模型中,訓練過程中可調整的那些參數就對應於對象知識,而完成這種調整的算法就對應於元知識。和前面的討論相聯繫,可以說元知識基本是先天固有的,而對象知識是後天習得的。

這兩種知識可以相互影響,並在一定程度上相互替代或轉化。我們可以學習一種邏輯並根據這種邏輯進行推理,但這種後天習得的邏輯不可能完全取代我們先天固有的 “元邏輯”,即人類推理活動中自然遵循的法則。即使是完全沒有受過邏輯學教育的人,其思維活動仍大體上是符合這種邏輯的。在另一方面,即使是邏輯學家和數學家,也不可能用他們的理論知識 (比如一階謂詞邏輯或概率論) 來完全規範他們在日常生活中的推理活動。我們當然可以教給大語言模型任意一套邏輯,包括納思所遵循的那種,但這對大語言模型而言只是 “對象知識”。它可以據此回答查詢,但不能完全以此規範其推理活動,就像人們可能對某種理論倒背如流,但不能總是以此指導行動一樣。

我們的經驗可以影響我們的思維活動,但不能決定其中的所有過程,其主要原因就是對 “元知識” 的掌控不能和 “對象知識” 達到同等程度。同理,我們可以通過訓練教給大語言模型一套不同的學習算法,但無法以此替換其固有的學習算法。

即使我們無法在自己的思維規律中動手腳,但爲什麼在我們設計的計算機系統中不能取消 “對象知識”和 “元知識” 之間的區分呢?能不能讓某種人造神經網絡調整自身的學習算法,或者讓納思根據經驗調整自身的推理規則?這在一定程度上的確有可能,但未必是個好主意 (比如會破壞系統自身的一貫性) ,也不可能完全做到 (比如需要靠 “元元知識” 來修改 “元知識”) 。由於這個話題超出本文的焦點,就不再進一步展開了。

如果智能系統的 “固有邏輯” 不能從自身經驗中總結出來,那麼人的這種元知識是哪裡來的?儘管我相信智能系統是可以被設計出來的,這不意味着我認爲人類智能也是某種設計的結果。相反,在納思中所體現的 “推理觀” (推理是概念替代,而概念是對經驗片段的抽象,因此適應系統可以通過推理將過去經驗應用於解決目前情境中的問題) 可以在動物智能中發現其雛形。因此,智能系統的元知識既可能來自設計,也可能來自進化,只是我不覺得通過進化來得到人工智能比設計它們更可行罷了 (儘管作爲一個補充手段還是值得考慮的) 。這個問題在[6]中有討論,在這裡就不多說了。

總而言之,我對大語言模型的基本評價還和[3]中一樣:很有用,但不能解決人工智能的基本問題,包括推理。

參考文獻

[1] XAI is in trouble, Rosina O Weber et al., AI Magazine, 45:300-316, Fall 2024

[2] GSM-Symbolic: Understanding the Limitations of Mathematical Reasoning in Large Language Models,Iman Mirzadeh et al., arXiv:2410.05229v1, Oct. 2024

[3] 深度剖析:ChatGPT 及其繼任者會成爲通用人工智能嗎?王培, 《返樸》 2023年03月15日

[4] AI是理性的,人類是非理性的,果真如此嗎?王培, 《返樸》 2021年07月14日

[5] 你這是什麼邏輯?王培, 《賽先生》 2016年08月10日

[6] 《智能論綱要》,王培, 上海科技教育出版社,2022年09月

來源:返樸

原標題:大語言模型會推理嗎?丨AI那廝

編輯:涼漸

轉載內容僅代表作者觀點

不代表中科院物理所立場

如需轉載請聯繫原公衆號

1.2.

3.

4.

5.

6.

7.

8.

9.

10.