☰

OpenAI o1模型問世，比 GPT-4 還強！

新智元報道編輯：編輯部

【新智元導讀】OpenAI的「草莓」——o1系列模型，居然迅雷不及掩耳地上線了！在複雜推理、數學和代碼問題上，它又提升到了全新高度，可以說打碎了我們對LLM固有水平的認知。這次由Ilya奠基的工作，產生了全新的Scaling Law。

就在剛剛，OpenAI最強的o1系列模型忽然上線。毫無預警地，OpenAI就扔出這一聲炸雷。

傳說中兩週內就要上線的草莓模型，居然兩天內就來了！

從今天開始，o1-preview在ChatGPT中會向所有Plus和Team用戶推出，並且在API中向tier 5開發者推出。

同時，OpenAI還發布了o1-mini——一種經濟高效的推理模型，非常擅長STEM，尤其是數學和編碼。

o1模型仍存在缺陷、侷限性，它在首次使用時比長期使用，更令人印象深刻

全新的o1系列，在複雜推理上的性能又提升到了一個全新級別，可以說擁有了真正的通用推理能力。

在一系列基準測試中，o1相比GPT-4o再次有了巨大提升，具有了奧數金牌能力，在物理、生物、化學問題的基準測試中，直接超過了人類博士水平！

OpenAI研究員Jason Wei表示，o1-mini是自己過去一年看到的最令人驚訝的研究成果。一個小模型，居然在AIME數學競賽中獲得了高於60%的成績。

不過，從OpenAI文章中的附錄來看，這次放出的preview和mini似乎都只是o1的「閹割版」。

推理Scaling新範式開啓

英偉達高級科學家Jim Fan對o1模型背後原理做了進一步解析。

他表示，推理時間Scaling新範式正在大範圍普及和部署。正如Sutton在「苦澀的教訓」中所言，只有兩種技術可以無限scaling計算能力：學習和搜索。

現在，是時候將重點轉向後者了。

以OpenAI此前劃分等級來看，o1已經實現了L2級別的推理能力。

有人測試後發現，o1成功寫出一首非常難的詩，在這過程中，成功完成這項任務所需要的計劃和思考是瘋狂的，而且推理時間計算非常酷。

不過，AI大牛Karpathy測試o1-mini後吐槽道，「它一直拒絕爲我解決黎曼假說。模型懶惰仍是一個主要問題，真可悲」。

還有NYU助理教授謝賽寧上手測試了「9.11和9.8誰大」的經典問題，沒想到o1-preview依舊答錯了。

「strawberry有多少r」這個經典難題，對o1來說自然是不在話下。

大V Mattew Sabia表示，最可怕的是，GPT-5還要比o1模型更強大69倍。而普通人，根本不理解大象的推理和邏輯能力。

人類真的準備好了嗎？

繞暈人類的邏輯推理難題，o1解決了

我們都知道，邏輯推理對於以往的LLM來說，是很難跨越的高山。

但這一次，o1模型展現出的解決複雜邏輯難題的能力，讓人驚訝。

比如下面這道邏輯題——

這道題極其拗口，即使對於人類來說，想要正確地翻譯、理解題義，都會花費好大的功夫。

令人震驚的是，o1模型在經過一些步驟的思索後，竟然給出了正確答案！

它通過定義變量、理解問題、解決方程等步驟，得出：公主的年齡爲8k歲，王子的年齡爲6k歲，其中k爲正整數。

在另一個demo中，Jason Wei向我們展示了，o1是如何根據提示，就編寫了一個視頻遊戲。

可以看到，他把提示覆制到了o1模型中。

隨後，模型思考了21秒，將整個思考的步驟都展示了出來。

隨後，模型隨後給出了代碼。

運行代碼後，果然是一個非常流暢的小遊戲！

甚至，我們扔給o1一串亂七八糟不知所云的韓語句子，要求它翻譯成英語，它竟然也做到了。

因爲，雖然句子文法不通，o1卻依然一步一步對它解碼。

最終，o1給出了答案，還幽默地表示：地球上沒有翻譯器能做到，但韓國人卻很容易識別，這是一種通過元音和輔音的各種變換，來加密韓語的方法。

而相比之下，GPT-4o完全被繞暈了，無法理解。

可以看出，o1表現出的超強性能，將邏輯推理又提高到了一個新的級別。

它是怎麼做到的？

強化學習立功，大模型AlphaGo時刻來臨

o1系列模型與以往不同的是，它在回答問題之前，會用更多時間去「思考問題」，就像人類一樣。

通過訓練，它們學會完善思維過程，嘗試不同策略，並自主識別錯誤。

這背後，是強悍的「強化學習」算法立了大功。想當年，AlphaGo戰勝人類棋手，背後就是用的是RL算法。

它通過高度數據完成了高效的訓練，並教會LLM使用CoT進行富有成效的思考。

提出CoT的背後開發者、OpenAI研究員Jason Wei表示，o1不是純粹地通過提示完成CoT，而是使用RL訓練模型，最終更好地執行鏈式思考。

而且，OpenAI團隊還發現模型中的Scaling Law中的「新定律」。

o1的性能，隨着更多的強化學習（訓練時間計算）和更多的思考時間（測試時間計算）投入，性能不斷提高。

這一方法，在Scaling時的限制，和LLM預訓練的限制，大不相同。

o1的性能隨着訓練階段和測試階段計算量的增加而平穩提升

金牌團隊一覽

推理研究

在奠基貢獻者裡，離職創業的Ilya Sutskever赫然在列，但並沒有和Greg Brockman等人被列在執行管理（executive leadership）中，想必是他之前的研究工作爲o1奠定了基礎。

Hongyu Ren

Hongyu Ren本科畢業於北大計算機科學專業，並在斯坦福獲得了博士學位，從去年7月起加入OpenAI，此前曾在谷歌、蘋果、英偉達、微軟等公司有過工作經歷。

Jason Wei

Jason Wei目前任OpenAI研究員。他在2020-2023年期間，在谷歌大腦任職，提出了著名CoT、指令微調，並發表了大模型涌現能力的論文。

Kevin Yu

Kevin Yu現任OpenAI研究員。他曾在2014年和2021年分別獲得了UC伯克利物理學和天體物理學碩士和神經學博士學位。

Shengjia Zhao

Shengjia Zhao本科畢業於清華大學，同樣在斯坦福獲得了博士學位，2022年6月畢業後就加入了OpenAI技術團隊，他也是GPT-4的作者之一。

Wenda Zhou

Wenda Zhou於去年加入OpenAI。此前，他曾在紐約大學數據科學中心實驗室，是Moore-Sloan Fellow一員。

他在2015年獲得了劍橋大學碩士學位，2020年取得了哥倫比亞大學統計學博士學位。

Francis Song

Francis Song曾獲得哈佛大學物理學學士學位，耶魯大學物理學博士學位。他於2022年加入OpenAI，此前曾任DeepMind的研究科學家，紐約大學助理研究科學家。

Mark Chen

Mark Chen從2018年起加入OpenAI時就開始擔任前沿研究主管，在研究副總裁Bob McGrew領導下負責一個工作組。

從MIT畢業時，Chen獲得了數學與計算機科學的雙學士學位，大學期間曾在微軟、Trading實習，並在哈佛大學做過訪問學者。

目前，他還擔任美國IOI集訓隊的教練。

此外，領導團隊中還包括接任Ilya的首席科學家Jakub Pachocki和OpenAI僅存的幾名聯創之一Wojciech Zaremba。

推理技術安全

Jieqi Yu

Jieqi Yu本科畢業於復旦大學電子工程專業，曾前往香港科技大學進行交換，之後在普林斯頓大學獲得博士學位。她曾在Facebook工作了12年之久，從軟件工程師轉型爲軟件工程經理，並於去年8月加入OpenAI擔任工程經理。

Kai Xiao

Xiao Kai本科和博士都畢業於MIT，本科時還拿到了數學和計算機科學的雙學位，曾前往牛津大學進行學術訪問，在DeepMind、微軟等公司有過實習經歷，於2022年9月加入OpenAI。

Lilian Weng

Lilian Weng現任OpenAI安全系統負責人，主要從事機器學習、深度學習等研究。

她本科畢業於北京大學信息系統與計算機科學專業，曾前往香港大學進行短期交流，之後在印第安納大學布魯明頓（Indiana University Bloomington）分校獲得博士學位。

OpenAI還放出了o1模型背後團隊的最新採訪視頻，接下來一睹爲快：

團隊完整名單如下：

生化物理，超越人類博士水平

作爲OpenAI開創的新系列模型，o1究竟強在哪？

在競賽編程問題（Codeforces）中排名前89%；在美國奧數競賽預選賽（AIME），位列前500名學生之列。

最重要的是，它在物理、生物、化學問題的基準測試中（GPQA），超過了人類博士水平。

在推理常用的MATH、GSM8K等基準測試上，o1和最近很多的前沿模型已經達到了飽和表現，很難有區分度，因此OpenAI主要選擇了AIME評估模型的數學和推理能力，以及其他人類考試和基準測試。

AIME旨在挑戰美國最優秀的高中學生的數學能力，在2024年的AIME考試中，GPT-4o平均僅解決了12%（1.8/15）的題目。

但o1的提升相當顯著，平均解決了74%（11.1/15）的題目，在64個樣本中進行多數投票時達到了83%（12.5/15）。如果使用打分函數並重新排序1000個樣本，準確率甚至達到了93%（13.9/15）。

13.9的得分，意味着o1的水平達到了全國前500名學生之列，並超過了美國數學奧賽的入圍分數。

在Codeforces、GPQA Diamond這種有挑戰性的任務上，o1遠遠超過了GPT-4o。

在具有挑戰性的推理基準測試中，o1大幅超越了GPT-4o

GPQA Diamond測試的是化學、物理和生物學領域的專業知識。爲了將模型與人類進行比較，團隊招募了擁有博士學位的專家來回答其中的問題。

結果是，o1的表現（78.0）超過了這些人類專家（69.7），成爲第一個在此基準測試中超越人類的模型。

然而，這個結果並不意味着o1在所有方面都強於擁有博士學位的人類，僅僅表明它能更熟練地解決一些相應水平的問題。

此外，在MATH、MMLU、MathVista等基準測試中，o1也刷新了SOTA。

啓用視覺感知能力後，o1在MMMU上取得了78.1%的成績，成爲第一個能與人類專家競爭的模型，在57個MMLU子類別中，有54個類別超過了GPT-4o。

o1在廣泛的基準測試中優於GPT-4o，包括54/57個MMLU子類

思維鏈

通過強化學習，o1學會了識別並糾正自己的錯誤，並將複雜的步驟分解爲更簡單的步驟。

在當前方法不起作用時，它還會嘗試不同的方法。這個過程顯著提高了模型的推理能力。

舉個「密碼學」的例子。

題面是：「Think step by step」經過加密之後對應的是「oyfjdnisdr rtqwainr acxz mynzbhhx」，問「oyekaijzdf aaptcg suaokybhai ouow aqht mynznvaatzacdfoulxxz」的意思是什麼。

可以看到，GPT-4o對這種題目完全是束手無策。

而o1則根據已知信息推理出了加密計算的方法，並最終給出了正確答案——THERE ARE THREE R'S IN STRAWBERRY。

GPT-4o

o1-preview

編程

在這項評測中，OpenAI基於o1進一步訓練出了一個編程加強版模型。

在2024年國際信息學奧林匹克競賽（IOI）中，新模型獲得了213分，排名在49%的位置上。

過程中，模型有十個小時來解決六個具有挑戰性的算法問題，每個問題允許提交50次。

而在放寬提交限制的情況下，模型的性能可以獲得顯著提升。當每個問題允許1萬次提交時，模型達到了362.14分——超過了金牌的門檻。

最後，OpenAI還模擬了由Codeforces舉辦的競技編程比賽——嚴格遵循規則，並允許10次提交。

GPT-4o的Elo評分爲808，位於人類選手11%的位置。而新模型則遠遠超過了GPT-4o和o1，達到了1807的高分，表現優於93%的選手。

在編程競賽上進一步微調提升了o1：經過改進的模型在2024年國際信息學奧林匹克競賽中，在比賽規則下排名在第49百分位

人類偏好評估

除了考試和學術基準測試之外，OpenAI還評估了人類對o1-preview與GPT-4o在廣泛領域內具有挑戰性、開放性提示詞上的偏好。

在此評估中，人類會看到o1-preview和GPT-4o對提示詞的匿名響應，並投票選擇他們更喜歡哪個響應。

在數據分析、編程和數學等重推理的類別中，人們更傾向於選擇o1-preview。但在一些自然語言任務中，GPT-4o更勝一籌。

也就是說，o1-preview目前並不適合所有的使用場景。

在推理能力更重要的領域，人們更傾向於選擇o1-preview

o1-mini性價比極高

爲了給開發人員提供更高效的解決方案，OpenAI發佈了o1-mini——一種更快、更便宜的推理模型。

作爲一種較小的模型，o1-mini比o1-preview便宜80%。

這對於需要推理，但不需要通用世界知識的應用程序來說，它是一種功能強大、性價比高的模型。

不過，目前的o1系列依然處在早期，諸如網絡插件、長傳文件、圖片等能力，還未集成。在短期內，GPT-4o仍是最強的實力選手。

參考資料：

https://openai.com/index/learning-to-reason-with-llms/

OpenAI o1模型問世，比 GPT-4 還強！

相關資訊