OpenAI o1模型問世,比 GPT-4 還強!

新智元報道 編輯:編輯部

【新智元導讀】OpenAI的「草莓」——o1系列模型,居然迅雷不及掩耳地上線了!在複雜推理、數學和代碼問題上,它又提升到了全新高度,可以說打碎了我們對LLM固有水平的認知。這次由Ilya奠基的工作,產生了全新的Scaling Law。

就在剛剛,OpenAI最強的o1系列模型忽然上線。毫無預警地,OpenAI就扔出這一聲炸雷。

傳說中兩週內就要上線的草莓模型,居然兩天內就來了!

從今天開始,o1-preview在ChatGPT中會向所有Plus和Team用戶推出,並且在API中向tier 5開發者推出。

同時,OpenAI還發布了o1-mini——一種經濟高效的推理模型,非常擅長STEM,尤其是數學和編碼。

o1模型仍存在缺陷、侷限性,它在首次使用時比長期使用,更令人印象深刻

全新的o1系列,在複雜推理上的性能又提升到了一個全新級別,可以說擁有了真正的通用推理能力。

在一系列基準測試中,o1相比GPT-4o再次有了巨大提升,具有了奧數金牌能力,在物理、生物、化學問題的基準測試中,直接超過了人類博士水平!

OpenAI研究員Jason Wei表示,o1-mini是自己過去一年看到的最令人驚訝的研究成果。一個小模型,居然在AIME數學競賽中獲得了高於60%的成績。

不過,從OpenAI文章中的附錄來看,這次放出的preview和mini似乎都只是o1的「閹割版」。

推理Scaling新範式開啓

英偉達高級科學家Jim Fan對o1模型背後原理做了進一步解析。

他表示,推理時間Scaling新範式正在大範圍普及和部署。正如Sutton在「苦澀的教訓」中所言,只有兩種技術可以無限scaling計算能力:學習和搜索。

現在,是時候將重點轉向後者了。

以OpenAI此前劃分等級來看,o1已經實現了L2級別的推理能力。

有人測試後發現,o1成功寫出一首非常難的詩,在這過程中,成功完成這項任務所需要的計劃和思考是瘋狂的,而且推理時間計算非常酷。

不過,AI大牛Karpathy測試o1-mini後吐槽道,「它一直拒絕爲我解決黎曼假說。模型懶惰仍是一個主要問題,真可悲」。

還有NYU助理教授謝賽寧上手測試了「9.11和9.8誰大」的經典問題,沒想到o1-preview依舊答錯了。

「strawberry有多少r」這個經典難題,對o1來說自然是不在話下。

大V Mattew Sabia表示,最可怕的是,GPT-5還要比o1模型更強大69倍。而普通人,根本不理解大象的推理和邏輯能力。

人類真的準備好了嗎?

繞暈人類的邏輯推理難題,o1解決了

我們都知道,邏輯推理對於以往的LLM來說,是很難跨越的高山。

但這一次,o1模型展現出的解決複雜邏輯難題的能力,讓人驚訝。

比如下面這道邏輯題——

這道題極其拗口,即使對於人類來說,想要正確地翻譯、理解題義,都會花費好大的功夫。

令人震驚的是,o1模型在經過一些步驟的思索後,竟然給出了正確答案!

它通過定義變量、理解問題、解決方程等步驟,得出:公主的年齡爲8k歲,王子的年齡爲6k歲,其中k爲正整數。

在另一個demo中,Jason Wei向我們展示了,o1是如何根據提示,就編寫了一個視頻遊戲。

可以看到,他把提示覆制到了o1模型中。

隨後,模型思考了21秒,將整個思考的步驟都展示了出來。

隨後,模型隨後給出了代碼。

運行代碼後,果然是一個非常流暢的小遊戲!

甚至,我們扔給o1一串亂七八糟不知所云的韓語句子,要求它翻譯成英語,它竟然也做到了。

因爲,雖然句子文法不通,o1卻依然一步一步對它解碼。

最終,o1給出了答案,還幽默地表示:地球上沒有翻譯器能做到,但韓國人卻很容易識別,這是一種通過元音和輔音的各種變換,來加密韓語的方法。

而相比之下,GPT-4o完全被繞暈了,無法理解。

可以看出,o1表現出的超強性能,將邏輯推理又提高到了一個新的級別。

它是怎麼做到的?

強化學習立功,大模型AlphaGo時刻來臨

o1系列模型與以往不同的是,它在回答問題之前,會用更多時間去「思考問題」,就像人類一樣。

通過訓練,它們學會完善思維過程,嘗試不同策略,並自主識別錯誤。

這背後,是強悍的「強化學習」算法立了大功。想當年,AlphaGo戰勝人類棋手,背後就是用的是RL算法。

它通過高度數據完成了高效的訓練,並教會LLM使用CoT進行富有成效的思考。

提出CoT的背後開發者、OpenAI研究員Jason Wei表示,o1不是純粹地通過提示完成CoT,而是使用RL訓練模型,最終更好地執行鏈式思考。

而且,OpenAI團隊還發現模型中的Scaling Law中的「新定律」。

o1的性能,隨着更多的強化學習(訓練時間計算)和更多的思考時間(測試時間計算)投入,性能不斷提高。

這一方法,在Scaling時的限制,和LLM預訓練的限制,大不相同。

o1的性能隨着訓練階段和測試階段計算量的增加而平穩提升

金牌團隊一覽

推理研究

在奠基貢獻者裡,離職創業的Ilya Sutskever赫然在列,但並沒有和Greg Brockman等人被列在執行管理(executive leadership)中,想必是他之前的研究工作爲o1奠定了基礎。

Hongyu Ren

Hongyu Ren本科畢業於北大計算機科學專業,並在斯坦福獲得了博士學位,從去年7月起加入OpenAI,此前曾在谷歌、蘋果、英偉達、微軟等公司有過工作經歷。

Jason Wei

Jason Wei目前任OpenAI研究員。他在2020-2023年期間,在谷歌大腦任職,提出了著名CoT、指令微調,並發表了大模型涌現能力的論文。

Kevin Yu

Kevin Yu現任OpenAI研究員。他曾在2014年和2021年分別獲得了UC伯克利物理學和天體物理學碩士和神經學博士學位。

Shengjia Zhao

Shengjia Zhao本科畢業於清華大學,同樣在斯坦福獲得了博士學位,2022年6月畢業後就加入了OpenAI技術團隊,他也是GPT-4的作者之一。

Wenda Zhou

Wenda Zhou於去年加入OpenAI。此前,他曾在紐約大學數據科學中心實驗室,是Moore-Sloan Fellow一員。

他在2015年獲得了劍橋大學碩士學位,2020年取得了哥倫比亞大學統計學博士學位。

Francis Song

Francis Song曾獲得哈佛大學物理學學士學位,耶魯大學物理學博士學位。他於2022年加入OpenAI,此前曾任DeepMind的研究科學家,紐約大學助理研究科學家。

Mark Chen

Mark Chen從2018年起加入OpenAI時就開始擔任前沿研究主管,在研究副總裁Bob McGrew領導下負責一個工作組。

從MIT畢業時,Chen獲得了數學與計算機科學的雙學士學位,大學期間曾在微軟、Trading實習,並在哈佛大學做過訪問學者。

目前,他還擔任美國IOI集訓隊的教練。

此外,領導團隊中還包括接任Ilya的首席科學家Jakub Pachocki和OpenAI僅存的幾名聯創之一Wojciech Zaremba。

推理技術安全

Jieqi Yu

Jieqi Yu本科畢業於復旦大學電子工程專業,曾前往香港科技大學進行交換,之後在普林斯頓大學獲得博士學位。她曾在Facebook工作了12年之久,從軟件工程師轉型爲軟件工程經理,並於去年8月加入OpenAI擔任工程經理。

Kai Xiao

Xiao Kai本科和博士都畢業於MIT,本科時還拿到了數學和計算機科學的雙學位,曾前往牛津大學進行學術訪問,在DeepMind、微軟等公司有過實習經歷,於2022年9月加入OpenAI。

Lilian Weng

Lilian Weng現任OpenAI安全系統負責人,主要從事機器學習、深度學習等研究 。

她本科畢業於北京大學信息系統與計算機科學專業,曾前往香港大學進行短期交流,之後在印第安納大學布魯明頓(Indiana University Bloomington)分校獲得博士學位。

OpenAI還放出了o1模型背後團隊的最新採訪視頻,接下來一睹爲快:

團隊完整名單如下:

生化物理,超越人類博士水平

作爲OpenAI開創的新系列模型,o1究竟強在哪?

在競賽編程問題(Codeforces)中排名前89%;在美國奧數競賽預選賽(AIME),位列前500名學生之列。

最重要的是,它在物理、生物、化學問題的基準測試中(GPQA),超過了人類博士水平。

在推理常用的MATH、GSM8K等基準測試上,o1和最近很多的前沿模型已經達到了飽和表現,很難有區分度,因此OpenAI主要選擇了AIME評估模型的數學和推理能力,以及其他人類考試和基準測試。

AIME旨在挑戰美國最優秀的高中學生的數學能力,在2024年的AIME考試中,GPT-4o平均僅解決了12%(1.8/15)的題目。

但o1的提升相當顯著,平均解決了74%(11.1/15)的題目,在64個樣本中進行多數投票時達到了83%(12.5/15)。如果使用打分函數並重新排序1000個樣本,準確率甚至達到了93%(13.9/15)。

13.9的得分,意味着o1的水平達到了全國前500名學生之列,並超過了美國數學奧賽的入圍分數。

在Codeforces、GPQA Diamond這種有挑戰性的任務上,o1遠遠超過了GPT-4o。

在具有挑戰性的推理基準測試中,o1大幅超越了GPT-4o

GPQA Diamond測試的是化學、物理和生物學領域的專業知識。爲了將模型與人類進行比較,團隊招募了擁有博士學位的專家來回答其中的問題。

結果是,o1的表現(78.0)超過了這些人類專家(69.7),成爲第一個在此基準測試中超越人類的模型。

然而,這個結果並不意味着o1在所有方面都強於擁有博士學位的人類,僅僅表明它能更熟練地解決一些相應水平的問題。

此外,在MATH、MMLU、MathVista等基準測試中,o1也刷新了SOTA。

啓用視覺感知能力後,o1在MMMU上取得了78.1%的成績,成爲第一個能與人類專家競爭的模型,在57個MMLU子類別中,有54個類別超過了GPT-4o。

o1在廣泛的基準測試中優於GPT-4o,包括54/57個MMLU子類

思維鏈

通過強化學習,o1學會了識別並糾正自己的錯誤,並將複雜的步驟分解爲更簡單的步驟。

在當前方法不起作用時,它還會嘗試不同的方法。這個過程顯著提高了模型的推理能力。

舉個「密碼學」的例子。

題面是:「Think step by step」經過加密之後對應的是「oyfjdnisdr rtqwainr acxz mynzbhhx」,問「oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz」的意思是什麼。

可以看到,GPT-4o對這種題目完全是束手無策。

而o1則根據已知信息推理出了加密計算的方法,並最終給出了正確答案——THERE ARE THREE R'S IN STRAWBERRY。

GPT-4o

o1-preview

編程

在這項評測中,OpenAI基於o1進一步訓練出了一個編程加強版模型。

在2024年國際信息學奧林匹克競賽(IOI)中,新模型獲得了213分,排名在49%的位置上。

過程中,模型有十個小時來解決六個具有挑戰性的算法問題,每個問題允許提交50次。

而在放寬提交限制的情況下,模型的性能可以獲得顯著提升。當每個問題允許1萬次提交時,模型達到了362.14分——超過了金牌的門檻。

最後,OpenAI還模擬了由Codeforces舉辦的競技編程比賽——嚴格遵循規則,並允許10次提交。

GPT-4o的Elo評分爲808,位於人類選手11%的位置。而新模型則遠遠超過了GPT-4o和o1,達到了1807的高分,表現優於93%的選手。

在編程競賽上進一步微調提升了o1:經過改進的模型在2024年國際信息學奧林匹克競賽中,在比賽規則下排名在第49百分位

人類偏好評估

除了考試和學術基準測試之外,OpenAI還評估了人類對o1-preview與GPT-4o在廣泛領域內具有挑戰性、開放性提示詞上的偏好。

在此評估中,人類會看到o1-preview和GPT-4o對提示詞的匿名響應,並投票選擇他們更喜歡哪個響應。

在數據分析、編程和數學等重推理的類別中,人們更傾向於選擇o1-preview。但在一些自然語言任務中,GPT-4o更勝一籌。

也就是說,o1-preview目前並不適合所有的使用場景。

在推理能力更重要的領域,人們更傾向於選擇o1-preview

o1-mini性價比極高

爲了給開發人員提供更高效的解決方案,OpenAI發佈了o1-mini——一種更快、更便宜的推理模型。

作爲一種較小的模型,o1-mini比o1-preview便宜80%。

這對於需要推理,但不需要通用世界知識的應用程序來說,它是一種功能強大、性價比高的模型。

不過,目前的o1系列依然處在早期,諸如網絡插件、長傳文件、圖片等能力,還未集成。在短期內,GPT-4o仍是最強的實力選手。

參考資料:

https://openai.com/index/learning-to-reason-with-llms/