華爾街日報:OpenAI GPT-5未達到預期

鞭牛士報道,12月22日消息,據《華爾街日報》最新報道稱,OpenAI 開發下一個主要模型 GPT-5 的努力正在落後於計劃,其結果尚未證明其巨大的成本是合理的。

這與 The Information之前的一篇報道相呼應,該報道指出,由於GPT-5 可能不會像之前的模型那樣代表巨大的飛躍, OpenAI 正在尋找新的策略。但《華爾街日報》的報道還包含有關代號爲 Orion 的 GPT-5 18 個月開發的更多細節。

據報道,OpenAI 已完成至少兩次大規模訓練,旨在通過對大量數據進行訓練來改進模型。初始訓練運行速度比預期的要慢,這意味着更大規模的運行既耗時又昂貴。據報道,雖然 GPT-5 的性能比其前輩更好,但它還不足以證明維持模型運行的成本是合理的。

《華爾街日報》還報道稱,OpenAI 不僅依賴公開數據和授權協議,還僱傭人員通過編寫代碼或解決數學問題來創建新數據。它還使用另一個模型 o1 創建的合成數據。

OpenAI 尚未立即迴應置評請求。該公司此前曾表示,今年不會發布代號爲 Orion 的模型。

以下爲全文:

OpenAI 的新人工智能項目進度落後,而且花費巨大。尚不清楚它何時或是否會成功。世界上可能沒有足夠的數據讓它變得足夠聰明。

該項目正式名稱爲 GPT-5,代號爲 Orion,已籌備了 18 個多月,旨在成爲 ChatGPT 技術的重大進步。知情人士稱,OpenAI 最親密的合作伙伴和最大的投資者微軟原本預計將在 2024 年中期左右看到新模型。

OpenAI 已經進行了至少兩次大規模訓練,每次訓練都需要數月時間處理大量數據,目的是讓 Orion 變得更智能。據瞭解該項目的人士稱,每次訓練都會出現新問題,軟件無法達到研究人員所期望的結果。

他們表示,Orion 的表現充其量比 OpenAI 目前的產品要好,但還不足以證明維持新模型運行的巨大成本是合理的。根據公共和私人對訓練各個方面的估計,爲期六個月的訓練運行僅在計算成本方面就可能花費約 5 億美元。

兩年前, OpenAI 及其傲慢的首席執行官Sam Altman推出了 ChatGPT,在硅谷引起了軒然大波。人工智能有望不斷取得顯著進步,並滲透到我們生活的幾乎所有方面。分析師預測,未來幾年科技巨頭可能會在人工智能項目上投入 1 萬億美元。

這些期望主要落在了人工智能熱潮的發源地 OpenAI 公司身上。

10 月份投資者對 OpenAI 的 1570 億美元估值,很大程度上基於奧特曼的預測,即 GPT-5 將代表各類學科和任務的“重大飛躍”。

GPT-5 有望解鎖新的科學發現,並完成諸如預約或航班預訂等日常人類任務。研究人員希望它犯的錯誤會比現在的人工智能更少,或者至少承認懷疑——這對目前的模型來說是一個挑戰,因爲目前的模型可能會帶着明顯的自信產生錯誤,也就是所謂的幻覺。

人工智能聊天機器人運行在被稱爲大型語言模型(LLM)的底層技術上。消費者、企業和政府已經依賴它們來做從編寫計算機代碼到修飾營銷文案和策劃派對等所有事情。OpenAI 的聊天機器人名爲 GPT-4,這是該公司自 2015 年成立以來開發的第四個 LLM。

OpenAI 的一位前高管表示,雖然 GPT-4表現得像一個聰明的高中生,但最終的 GPT-5 實際上在某些任務上會擁有博士學位。今年早些時候,Altman 在斯坦福大學的一次演講中告訴學生,OpenAI 可以高度科學地肯定GPT-5 將比當前模型聰明得多。

目前尚無確定模型何時變得足夠智能,可以指定爲 GPT-5 的既定標準。OpenAI 可以在數學和編碼等領域測試其法學碩士。公司高管將根據直覺或許多技術專家所說的“感覺”來決定模型是否足夠智能,可以稱爲 GPT-5。

到目前爲止,氣氛還不太好。

OpenAI 和微軟拒絕對本文發表評論。去年 11 月,Altman 表示,這家初創公司不會在 2024 年發佈任何名爲 GPT-5 的東西。

訓練日

從2023 年 3 月 GPT-4 問世的那一刻起,OpenAI 就一直致力於 GPT-5。

長期從事人工智能研究的研究人員表示,開發大型語言模型等系統既是一門藝術,也是一門科學。世界上最受尊敬的人工智能科學家因其如何獲得更好結果的直覺而聞名。

模型在訓練過程中進行測試,這是一個持續的週期,在此期間,模型可以輸入數萬億個單詞片段(稱爲標記)。大規模的訓練運行可能需要幾個月的時間,數據中心需要數萬塊昂貴且令人垂涎的計算機芯片,通常來自Nvidia。

在訓練過程中,研究人員需要連續數週甚至數月坐在電腦前,嘗試使用遙遠的數據中心裡最昂貴的硬件,將世界上的大量知識輸入到人工智能系統中。

奧爾特曼表示,訓練 GPT-4 的成本超過 1 億美元。未來的人工智能模型預計將超過 10 億美元。訓練失敗就像發射後不久在天空中爆炸的火箭。

研究人員試圖通過較小規模的實驗(在真正進行實驗之前進行試運行)來最大限度地降低這種失敗的可能性。

從一開始,GPT-5 計劃就存在問題。

2023 年年中,OpenAI 開始了一次訓練,同時也是對 Orion 擬議新設計的測試。但這個過程進展緩慢,這表明更大規模的訓練可能需要非常長的時間,這反過來會使成本變得異常高昂。而這個被稱爲 Arrakis 的項目的結果表明,創建 GPT-5 不會像預期的那樣順利。

OpenAI 研究人員決定進行一些技術調整來增強 Orion。他們還得出結論,他們需要更多樣、更高質量的數據。他們覺得公共互聯網的數據不夠。

一般來說,人工智能模型吞噬的數據越多,其能力就越強。對於大型語言模型來說,這些數據主要來自書籍、學術出版物和其他受人尊敬的來源。這些材料有助於大型語言模型更清楚地表達自己並處理各種任務。

對於之前的模型,OpenAI 使用從互聯網上抓取的數據:新聞文章、社交媒體帖子和科學論文。

爲了讓 Orion 變得更智能,OpenAI 需要讓它變得更大。這意味着它需要更多的數據,但數據還不夠。

DatologyAI 是一家開發工具來改善數據選擇的初創公司,其首席執行官Ari Morcos表示:這變得非常昂貴,而且很難找到更多同等高質量的數據。

Morcos 正在用更少但更好的數據構建模型,他認爲這種方法將使當今的人工智能系統比 OpenAI 等所有頂級人工智能公司所採用的策略更強大。

OpenAI 的解決方案是從頭開始創建數據。

該公司正在招聘人員編寫新的軟件代碼或解決數學問題,以供 Orion 學習。這些員工中有些是軟件工程師和數學家,他們還會向 Orion 解釋自己的工作。

許多研究人員認爲,代碼,即軟件語言,可以幫助大型語言模型解決他們尚未見過的問題。

讓人們解釋他們的想法可以加深新創建數據的價值。這是法學碩士需要吸收的更多語言;它也是該模型未來如何解決類似問題的地圖。

「我們正在將人類智能從人類思維轉移到機器思維中。」與 OpenAI、 Meta等公司 合作的人工智能基礎設施公司 Turing 的首席執行官兼聯合創始人喬納森·西達爾特 (Jonathan Siddharth) 表示。

圖靈高管表示,在人工智能培訓中,軟件工程師可能會被要求編寫一個程序來有效解決複雜的邏輯問題。數學家可能需要計算用一百萬個籃球搭建的金字塔的最大高度。然後,答案——以及更重要的是,如何達到這些答案——將被納入人工智能培訓材料中。

OpenAI 與理論物理等學科的專家合作,解釋他們將如何處理該領域一些最棘手的問題。這也可以幫助 Orion 變得更聰明。

這個過程非常緩慢。GPT-4 的訓練使用了大約 13 萬億個 token。一千人每天寫 5,000 個單詞,需要幾個月才能產生十億個 token。

OpenAI 還開始開發所謂的合成數據,即由人工智能創建的數據,以幫助訓練 Orion。研究表明,人工智能爲人工智能創建數據的反饋迴路經常會導致故障或產生無意義的答案。

知情人士稱,OpenAI 的科學家認爲,他們可以通過使用另一個名爲 o1 的人工智能模型生成的數據來避免這些問題。

OpenAI 本已十分困難的任務因內部動盪和競爭對手幾乎不斷挖走其頂尖研究人員(有時甚至向他們提供數百萬美元)而變得更加複雜。

去年,阿爾特曼突然被 OpenAI 董事會解僱,一些研究人員開始懷疑該公司是否還能繼續運營下去。阿爾特曼很快被恢復首席執行官一職,並着手改革 OpenAI 的治理結構。

今年,OpenAI 已有 20 多名重要高管、研究人員和長期員工離職,其中包括聯合創始人兼首席科學家 Ilya Sutskever 和首席技術官Mira Murati 。上週四,廣受讚譽的研究員Alec Radford宣佈離職,他曾是 OpenAI 多篇科學論文的主要作者,在公司工作了大約八年後離職。

重啓

到 2024 年初,高管們開始感受到壓力。GPT-4 已經問世一年,競爭對手開始迎頭趕上。Anthropic 的新法學碩士學位被業內許多人認爲比 GPT-4 更好。幾個月後,谷歌推出了今年最受歡迎的新 AI 應用程序NotebookLM。

隨着 Orion 停滯不前,OpenAI 開始開發其他項目和應用程序。其中包括精簡版的 GPT-4 和 Sora,後者是一款可以製作 AI 生成視頻的產品。

據知情人士透露,這導致新產品開發團隊和 Orion 研究人員之間爭奪有限的計算資源。

人工智能實驗室之間的競爭日趨激烈,以至於大型科技公司發表的有關最新發現或突破的論文數量比科學界通常的要少。兩年前,隨着資金涌入市場,科技公司開始將此類研究成果視爲需要保密的商業機密。

一些研究人員對此非常重視,他們不會在飛機、咖啡店或任何有人能從他們身後偷看他們工作成果的地方工作。

這種神秘的態度讓許多長期從事人工智能研究的研究人員感到沮喪,其中包括Meta 首席人工智能科學家Yann LeCun。LeCun表示,OpenAI 和 Anthropic 的工作不應再被視爲研究,而應被視爲高級產品開發。

「如果你用商業時鐘做這件事,那就不能稱之爲研究。」LeCun 在最近的一次人工智能會議間隙表示,OpenAI 在這次會議上幾乎沒有出席。「如果你秘密做這件事,那就不能稱之爲研究。」

2024 年初,OpenAI 準備再次嘗試 Orion,這次有了更好的數據。研究人員在年初的幾個月裡進行了幾次小規模的訓練,以增強信心。

到 5 月份,OpenAI 的研究人員決定,他們已準備好對 Orion 進行另一次大規模訓練,預計訓練將持續到 11 月。

訓練開始後,研究人員發現數據中存在一個問題:數據並不像他們想象的那麼多樣化,這可能會限制獵戶座的學習能力。

這個問題在小規模的努力中並不明顯,直到大規模訓練開始後才顯現出來。OpenAI 花費了太多時間和金錢來重新開始。

相反,研究人員在訓練過程中努力尋找更廣泛的數據來爲模型提供數據。目前尚不清楚這一策略是否卓有成效。

Orion 的問題向 OpenAI 的一些員工發出了一個信號:推動其早期成功的多多益善戰略正在失去動力。

OpenAI 並不是唯一一家擔心進展會遭遇阻礙的公司。整個行業都在激烈爭論人工智能的進步是否開始停滯不前。

蘇茨克弗最近與他人共同創辦了一家名爲 Safe Superintelligence 或 SSI 的新 AI 公司,他在最近的一次 AI 會議上宣稱,數據最大化的時代已經結束。

他告訴一羣研究人員、政策專家和科學家:數據不會增長,因爲我們只有一個互聯網。甚至可以說,數據是 AI 的化石燃料。

而燃料也開始耗盡了。

推理

他們在 Orion 上的掙扎讓 OpenAI 的研究人員找到了一種讓 LLM 更聰明的新方法:推理。研究人員表示,花很長時間思考可以讓 LLM 解決他們沒有接受過訓練的難題。

在幕後,OpenAI 的 o1 會爲每個問題提供多個答案,並對其進行分析以找到最佳答案。它可以執行更復雜的任務,例如編寫商業計劃或創建填字遊戲,同時解釋其推理——這有助於模型從每個答案中學習一點。

蘋果公司的研究人員最近發表了一篇論文,認爲推理模型(包括 o1 版本)很可能只是模仿他們在訓練中看到的數據,而不是真正解決新問題。

蘋果研究人員表示,他們發現,如果問題被修改以包含不相關的細節,例如對有關獼猴桃的數學問題進行修改,指出有些水果比其他水果小,則表現會急劇下降。

9 月,OpenAI 推出了其 o1 推理模型的預覽版,並於本月初發布了 o1 的完整版本。

所有這些額外的腦力勞動都是昂貴的。OpenAI 現在付費爲單個查詢生成多個答案,而不僅僅是一個。

在最近的一次 TED 演講中,OpenAI 的一位高級研究科學家強調了推理的優勢。

OpenAI 科學家 諾姆·布朗 (Noam Brown ) 表示:事實證明,在一手撲克牌中,讓機器人僅僅思考 20 秒,所獲得的性能提升,就相當於將模型擴大 100,000 倍,訓練時間延長 100,000 倍。

更先進、更高效的推理模型可能成爲 Orion 的基礎。OpenAI 的研究人員正在研究這種方法,並希望將其與舊方法結合起來,即獲得更多數據,其中一些數據可能來自 OpenAI 的其他 AI 模型。然後,OpenAI 可以使用人類生成的材料來完善結果。

週五,Altman 宣佈計劃開發一種新的推理模型,該模型比公司之前發佈的任何模型都更智能。他沒有透露何時或是否會推出一個值得稱爲 GPT-5 的模型。