GPT-4遠不如人類?正確率僅15%,Meta領銜發佈通用AI助手基準

當前,大型語言模型(LLMs)或許是通用人工智能(AGI)得以實現的“最優解”。

然而,儘管大模型在流利性和知識廣度方面貌似已接近人類水平,但評估它們的挑戰日益突顯。隨着大模型的迅猛發展,一些傳統基準已經失效。因此,新的測評基準亟需制定。

近日,來自 Meta、HuggingFace 和 AutoGPT 的研究團隊共同提出了一個用於測試通用 AI 助手的基準——GAIA,該基準提出了現實世界中需要一系列基本能力的問題,如推理、多模態處理、網絡瀏覽和通用工具使用熟練技能。

研究團隊表示,這些問題在概念上對人類來說非常簡單,但對大多數大模型來說,卻很有挑戰性:一個直觀的數據,人類回答這些問題的成功率爲 92%,而即使是帶有插件的 GPT-4 僅有 15% 的成功率。這與近年來大模型在法律或化學等需要專業技能的任務中表現優於人類的趨勢形成了鮮明對比。

相關研究論文以“GAIA:A Benchmark for General AI Assistants”爲題,已發表在預印本網站 arXiv 上。

值得注意的是,GAIA 的理念偏離了當前 AI 基準的趨勢,即瞄準對人類來說越來越難的任務。研究團隊認爲,AGI 的出現取決於系統能否在此類問題上表現出與普通人類似的魯棒性。

通用AI助手基準:與真實世界互動

隨着大模型能力的提升,現有的評估基準變得越來越難以滿足新模型的挑戰,傳統的基準測試很快就會被這些新模型超越。

在嘗試將大模型變成通用助手的過程中,目前的評估方法相對滯後。現有的評估主要依賴於封閉系統、特定 API 調用或者重新使用現有的評估數據集。然而,這些方法通常在封閉環境中進行,可能評估的是助手學習使用特定 API 的程度,而不是在真實世界互動中更通用的能力。

相比之下,GAIA 採用了與真實世界的互動作爲評測基準,並不限定可能的 API。還有其他一些方法也在探索通用助手的評估,但它們與 GAIA 的核心區別在於它們更關注當前模型的能力,而不是未來的進展。

據論文描述,GAIA 是一個測試 AI 系統通用助手問題的標準,旨在避免 LLMs 評估中的各種問題。GAIA 包含由人類設計和標註的 466 個問題。這些問題主要是文本形式的,有時還包含一些文件,比如圖像或電子表格。問題涵蓋了各種通用助手應用場景,包括日常個人任務、科學問題和一般知識。問題設計成只有一個簡短而正確的答案,因此很容易驗證。使用 GAIA 只需要向 AI 助手提示這些問題,並附帶相關的證據(如果有的話)。

另外,使用 GAIA 評估 LLMs 只需要具備向模型提問的能力,也就是說,需要能夠訪問 API。研究人員在向模型提問之前使用了一個前綴提示。爲了方便提取答案,他們還在前綴提示中規定了一種格式。

隨後,他們對 GPT4 進行了評估,包括有插件和沒有插件的情況,還評估了以 GPT4 爲後端的AutoGPT。目前,GPT4 需要手動選擇插件,而 AutoGPT 能夠自動進行這個選擇。

結果表明,GAIA 允許清晰地對能力強的助手進行排名,同時在未來的幾個月甚至幾年中仍然有很大的改進空間。

從圖中可以看出,人類的網絡搜索在 Level 1 方面表現良好,但在更復雜的查詢上效果不佳,而且速度稍慢。與沒有插件的 GPT-4 相比,使用插件的 GPT-4 在提高答案准確性和執行計劃方面表現更好。AutoGPT-4 自動使用工具,但在 Level 2 和甚至 Level 1 方面的表現令人失望,可能是由於其依賴 GPT-4 API 的方式。總體而言,與使用插件的 GPT-4 合作的人類似乎在分數和時間之間找到了最佳的平衡。

評估 AI 助手潛力的第一步

GAIA 的出現讓我們重新思考當前和未來 AI 系統評估的範式。

封閉在 API 後面的模型可能會隨着時間的推移而改變,這意味着在不同時間點進行的評估可能無法複製或重現。另外,問題可能會更加複雜,因爲像 ChatGPT 插件這樣的工具和它們的功能會定期更新,而不是通過 ChatGPT 的 API 進行訪問。

由於研究人員在評估模型性能時通常依賴於真實世界的基準,而這些基準可能會隨着時間的推移而改變,所以實現可重現性可能會變得更加困難。然而,GAIA 對於生成隨機性的處理是魯棒的,因爲它只關注最終的答案,即只接受一個正確的響應進行評估。

此外,相較於規模更大但多項選擇問題的數據集,GAIA 注重問題質量而非數量。GAIA 的持續發展有望成爲更全面評估 AI 系統泛化能力和穩健性的關鍵組成部分。

GAIA 任務可能涉及調用各種模塊來完成,比如圖像分類器可能返回錯誤的標籤。有些人可能會覺得這樣的評估有些含糊,因爲 GAIA 看待系統爲一個整體,而不是把錯誤歸因於系統的子部分,比如網絡瀏覽或視覺模塊。然而,將 LLMs 與其他工具緊密結合以完成所有任務可能不是可持續的方法。未來的模型可能會在語言模型和其他能力之間更加集成,如視覺語言模型。

GAIA 的目標是評估整個 AI 系統,而不僅僅是特定的架構標準。更廣泛地說,對於複雜生成的自動、事實和可解釋的評估一直是生成式 AI 中的一個長期難題。

目前的評估方法可能存在一些限制,未來可能需要更復雜的方法,比如結合多模態系統,通過對圖像進行復雜的序列修改,並在自然語言中提出明確問題的方式來改進生成模型的評估。

儘管深度學習在各領域取得了進展,但全自動化目前仍面臨無法預測的失敗,如自動駕駛汽車的挑戰。解決 GAIA 問題需要全自動化,但這可能導致社會經濟格局的改變,存在技術所有者主導價值捕獲的風險。

另外,GAIA 也存在一些侷限。首先,GAIA 無法評估不同路徑通向正確答案的情況。論文作者建議未來考慮人類和模型評估,以彌補這一缺陷。

此外,由於 OpenAI 的 API 未提供詳細工具調用日誌,當前只評估了具有工具訪問權限的最強大的語言模型。研究團隊希望在未來能夠在開源領域添加其他具備足夠工具使用能力和日誌記錄的模型。

爲了創建現實且易於使用的基準,需要兩輪註釋,第一輪由註釋者設計明確問題,第二輪由兩位獨立註釋者回答問題並排除歧義,儘管這過程徹底,仍可能存在歧義。

最後,GAIA 的一個重大限制在於它缺乏語言多樣性:所有問題只能用“標準”英語提出,而且許多問題主要依賴於英語網頁。

因此,GAIA 只是評估通用 AI 助手潛力的第一步,不應視爲它們成功的絕對證明。