OpenAI泄密者公佈165頁文件:2027年實現AGI、計算集羣將耗資千億美元

智東西編譯 陳駿達編輯 Panken

智東西6月7日消息,6月4日,曾因“泄密”被OpenAI開除的OpenAI前超級對齊部門成員利奧波德·阿申布倫納(Leopold Aschenbrenner)在Dwarkesh播客上公開發聲,稱自己是因爲向董事會分享安全備忘錄才被OpenAI開除的。

OpenAI超級對齊團隊的工作經歷,讓阿申布倫納能在AI發展的最前沿見證此項技術的種種機遇和風險,他也於6月4日在自己的網站上公佈了一份長達165頁的PDF文檔,給出了對AI趨勢的推測。他還澄清道,雖然自己曾在OpenAI工作,但自己的預測都是基於公開信息、自己的想法、一般性的田野知識和工作期間的八卦。

阿申布倫納在這份文件的開頭特別緻敬了前OpenAI首席科學家伊爾亞·蘇茨克維(Ilya Sutskever)和其它OpenAI超級對齊團隊的成員。在伊爾亞從OpenAI淡出直到離職的幾個月中,衆多網友都發出疑問:伊爾亞究竟看到了什麼?或許這份文件能讓我們從頂尖AI研究者的視角,一窺未來AI的發展趨勢。

阿申布倫納認爲,AGI(通用人工智能)的競賽已經悄然開始,我們有很大概率將在2027年實現AGI系統。並且,AI系統並不會在達到人類水平後就止步不前,而是會在數以億計的AGI帶領下實現自動化的AI研究,或許能在1年時間內做出原本10年才能實現的算法進步,我們或許會在2030年左右迎來真正意義上的超級智能。

然而AI系統的快速進步也將給人類帶來諸多挑戰。阿申布倫納認爲控制超人類水平的AI系統仍然是一個尚未解決的技術問題。雖然這一技術是可以實現的,但在“智能爆炸”的背景下,相關研究很可能會脫離正軌,這極有可能帶來災難性的後果。

阿申布倫納將他的這份文件命名爲《態勢感知》(Situational Awareness),他認爲目前全世界只有僅僅幾百人對AI的發展有真正意義上的感知,並且大多集中在舊金山地區以及全球各地的AI實驗室裡,而自己便是這幾百人中的一員。主流專家們目前還停留在AI僅僅是“下一詞預測”的認知上,但AI或許會成爲一場遠超互聯網的宏大的技術變革。

一、AGI極有可能在2027年到來,基準測試已經不夠用了

在這份PDF文檔中,阿申布倫納先是對GPT-4到AGI的發展路徑做出了預測。他認爲,算力和算法效率都在以每年0.5個數量級(1個數量級=10倍)的速度發展,再加上可能出現的釋放模型性能的技術突破,我們極有可能於2027年實現AGI。這意味着模型將能完成AI研究員或者工程師的工作。

阿申布倫納對AI水平發展的估計參考了GPT-2到GPT-4的發展趨勢。2019年的GPT-2模型可以簡單地串起一些看似合理的句子,但是卻無法從1數到5,也無法完成總結類任務。GPT-2模型的水平大概與學齡前兒童相仿。

而2020年的GPT-3模型能生成篇幅更長的模型,並能完成一些基礎的算術任務和語法糾錯。GPT-3模型大致達到了小學生的水平。2年之後發佈的GPT-4模型能編寫複雜的代碼並進行迭代調試,還能完成高中數學競賽題,擊敗了大多數高中生,實現了與較爲聰明的高中生相似的水平。

不過,阿申布倫納也提到,將AI的能力與人類智能進行比較是困難且有缺陷的,但這樣的類比仍然是有借鑑意義的。

過去10年深度學習的進步速度非常驚人。僅僅10年前,深度學習系統識別簡單圖像的能力就已經是革命性的。但如今,我們不斷嘗試提出新穎的、更難的測試,但每個新的基準測試都很快被破解。

過去,破解廣泛使用的基準測試需要數十年的時間,而現在只要幾個月。

上圖顯示,AI正在以極快地速度在諸多基準測試中取得超越人類水平的表現。阿申布倫納稱,目前廣泛使用的MMLU基準測試的設計者認爲這個測試能經受住時間的考驗,但僅僅3年後,像GPT-4和Gemini這樣的模型就已經獲得了約90%的正確率,遠超大部分人類的表現。

目前最困難的基準測試是類似GPQA的測試,內容是博士級別的生物、化學和物理問題。但阿申布倫納估計,在一代或兩代模型迭代後,這一基準測試也將作廢。

阿申布倫納認爲AI模型的快速進步主要有3個原因:

1、算力的增長

算力的增長不僅僅是因爲摩爾定律的存在。即便是在摩爾定律的全盛時期,算力增長也相對緩慢,大約是每10年增長1-1.5個數量級。

而AI研究機構Epoch AI對2019年-2023年的算力提升進行了評估,評估結果顯示GPT-4訓練使用的原始計算量比GPT-2多約3000倍10000倍。

目前算力的增長速度是摩爾定律的接近5倍,這主要是因爲在計算基礎設施上的鉅額投資。阿申布倫納估計,到2027年底,將會出現2個數量級的算力增長。這意味着計算集羣將從目前的10億美元量級增長到數千億美元量級。這種規模的算力集羣的用電量相當於美國一箇中小型的州的用電量。

2、算法效率的提升

阿申布倫納將算法的進展分爲兩類,算法效率的提升屬於“範式內”的算法改進,能讓我們用更少的計算量實現相同的性能,這也將相應地提升整體的有效計算量。

這種範式內的算法改進速度是幾乎不變的。ImageNet的最佳數據顯示,2012年-2021年的9年期間,計算效率持續以每年0.5個數量級的速度提升。這意味着4年後,我們可以用現在1%的計算量實現相同的性能。

不過目前大多數AI實驗室已經不在發佈這方面的數據,因此很難衡量過去4年中前沿LLM(大語言模型)的算法進展。但Epoch AI最新的論文估計,LLM的算法效率提升仍然與ImageNet類似,都是每年大約0.5個數量級。預計到2027年底,與GPT-4相比,模型算法效率將提高1-3個數量級。

3、釋放模型潛力的改進

這類的算法改進是極難量化的,但過去幾年,AI行業的確實現了不少釋放模型潛力的改進。人類反饋強化學習(RLHF)極大地提升了模型的可用性。根據OpenAI發佈的關於InstructGPT的開創性論文,使用了RLHF的小模型在接受人類評分者的評估時,表現相當於比它大100倍但沒有使用RLHF的大模型。

同樣的,思維鏈(Chain of Thought)技術在兩年前開始廣泛使用,這讓模型在數學和推理類問題上實現了10倍的有效計算提升。此外,工具使用、超長上下文窗口和後訓練等技術都讓模型有了極大的改進。

而目前的模型還沒有長期記憶,無法進行長時段的思考並輸出更長的內容,個性化程度也不夠高。阿申布倫納認爲,如果我們能在這些領域取得突破,那麼就有可能實現模型表現質的飛躍。

但阿申布倫納強調,這些估計的誤差是很大的。訓練數據可能面臨瓶頸,而算法突破何時能實現也是未知數。但目前我們確實在經歷着成數量級的快速增長。只要AI技術能保持目前的發展趨勢,我們就很有可能於2027年實現AGI。

二、AI發展不會止步於AGI,增長可能遇到四大瓶頸

阿申布倫納認爲,AI的進步不會止步於頂尖人類水平。例如,在最初學習了人類最好的棋局之後,AlphaGo開始與自己對弈,它很快實現了超越人類的水平,下出了人類永遠無法想出的極具創意和複雜性的棋步。

在實現AGI後,人類將能夠利用先進的AGI系統實現自動化的AI研究,這可能會將人類10年的算法進展壓縮到不到1年的時間裡。與現有的領先的AI實驗室的數百名研究人員和工程師相比,未來的AI實驗室可能會擁有成千上萬個AGI系統,夜以繼日地努力實現算法突破,不斷自我完善,加速算法進步的現有趨勢。

但這一增長也有幾個可能的瓶頸。

1、算力限制:AI研究不僅需要好的想法、思維或數學計算,還需要進行實驗來驗證想法。雖然AI研究被自動化了,並得到了極大的加速,但這並不意味着算力也將以同樣的速度增長。

2、長尾效應:人類或許能將70%的AI研究工作快速地自動化,但剩餘30%的研究很有可能就變爲瓶頸。

3、算法進步的內在限制:算法進步有可能無法再想過去那樣提高5個數量級。

4、創新難度提升:目前AI實驗室只需要幾百名頂尖研究人員,便可以維持每年5個數量級的表現提升。但隨着模型性能的提升,要實現同樣幅度的提升的難度也相應地增加了。我們可能需要大量的研究才能維持與過去類似的算法進步速度。

儘管存在種種可能的限制,阿申布倫納還是認爲我們有可能會在2030年左右實現強大的超級AI系統。2030年左右,GPU的數量可能會達到數十億個,而上面運行的AGI系統數量甚至有可能超過人類的數量。在幾周內,它們就能獲取相當於人類幾十億年才能積累的經驗,還能一直高度專注地工作。

AI能力的爆發式提升將帶來一系列影響。這有可能推動機器人技術的快速發展,將工廠中的工人全部替換爲機器人,還有可能推動經濟的高速發展和其它科學研究的快速進步。

阿申布倫納認爲,智能爆炸和後超級智能時期將是人類歷史上最不穩定、最緊張、最危險和最瘋狂的時期之一。他認爲在這一AI技術快速發展的時期中,我們幾乎沒有時間做出正確的決定。挑戰將是巨大的,我們需要竭盡全力才能完成這一過渡。

三、激進的AI投資:預計2030年達8萬億美元

實現AGI是一場昂貴的遊戲。2024年,英偉達的數據中心業務實現就實現了每季度250億美元,也就是每年1000億美元的營收。這就意味着流經英偉達的數據中心投資就有1000億美元。這還不包括數據中心場地、建築、冷卻、電力的投入。

大型科技公司也一直在大幅增加資本支出:微軟和谷歌的資本支出可能會超過500億美元,亞馬遜雲科技(AWS)和Meta今年的資本支出可能會超過400億美元。雖然這些支出並非全部用於AI,但由於AI的蓬勃發展,它們的資本支出總額將同比增長500-1000億美元。這些公司還在削減其他資本支出,將更多支出轉移到AI上。此外,其他雲提供商、公司和國家也在投資AI。

根據阿申布倫納的粗略估計,2024年AI投資將達到1000億至2000億美元。到2026年,年投資額將達到5000億美元,而到2030年,這一數字可能來到近8萬億美元。

但AI的增長可能會面臨電力供應的限制。預計在2028年左右,電力就將成爲一個重要的限制性因素。屆時,閒置的電力產能或將不復存在,而建造一座新的千兆瓦級核電站需要10年時間。

過去10年,美國發電總量僅增長了5%。雖然公用事業公司已經意識到AI的發展對電力需求的影響,但他們對其規模並沒有準確的把握。實際上,6年後,一座耗資萬億美元、用電量達100GW的計算集羣就需要美國目前發電量的約20%;再加上巨大的推理能力,需求將增加數倍。

此外,芯片也是AI產業中重要的一環,但這一方面的限制可能並沒有電力那麼大。全球AI芯片的產量目前僅僅佔臺積電先進產能的不到10%,這意味着AI芯片的產量還有很大提升空間。其實臺積電一年的產能如果全部用於AI芯片的生產,就可以滿足萬億美元規模的計算集羣的需求了。只要先進封裝和高帶寬內存的產能可以跟上日益增長的AI芯片需求,那AI芯片的供應就不會對AI行業的發展造成太大阻礙。

四、現有對齊技術面臨崩潰,超級AI系統如何實現對齊?

目前用於引導AI系統,確保AI系統行爲與人類價值觀一致的技術是“人類反饋強化學習”(RLHF),這也是ChatGPT成功背後的關鍵。人類評估能給AI系統反饋,對良好的行爲進行強化,而對不良的行爲進行懲罰,這樣AI就會學會遵循人類的偏好。

但隨着AI系統變得更加智能,RLHF將會崩潰,我們將面臨全新的、性質不同的技術挑戰。想象一下,一個超人類水平的AI系統用它發明的一種新編程語言生成一百萬行代碼。人工評估員根本無從知曉這些代碼背後是否存在問題,他們無法做出好或壞、安全或不安全的評價,因此也無法通過RLHF強化良好行爲並懲罰不良行爲。

AI智能水平的爆發式提升可能會讓AI系統極快地從RLHF正常工作的系統,轉變到RLHF完全崩潰的系統。這使得我們幾乎沒有時間迭代並發現和解決問題,相關研究極有可能脫離正軌。但阿申布倫納還是持謹慎樂觀態度,認爲我們可以解決對齊問題,還提出了幾個可能的研究方向:

1、評估比生成更容易:寫1篇論文的時間要遠遠長於評估1篇論文質量的時間。同理,如果我們將讓專家團隊花費大量時間評估每個RLHF示例,即使AI系統比他們更聰明,他們也將能夠發現許多不當行爲,並給予反饋。

2、可擴展的監督:我們可以使用AI助手來幫助人類監督其他AI系統。

3、泛化:評估問題時,有些問題確實超出了人類的理解範圍,但我們可以研究AI系統在簡單問題上的表現,然後推廣到更爲複雜的問題上。

4、可解釋性:如果我們能理解AI系統具體在想什麼,就能對AI系統實現有效的監督和對齊。

阿申布倫納也提到,對齊僅僅是對智能爆發式增長的第一道防線,我們還需要其他形式的保護。例如提升模型的安全性,防止模型的自我滲透,還可以開發專用的監控模型,對其他AI模型進行監管,或是有意識地限制模型的能力。

結語:超級智能即將到來,人類真的準備好了嗎?

阿申布倫納在這份文件中分享了當前AI行業的一個怪現象:現在每個人都在談論AI,但很少有人知道即將發生什麼。英偉達的分析師仍然認爲2024年可能就是頂峰。而主流專家則陷入了選擇性忽視的狀態,認爲模型能力僅僅只是“下一詞預測”。他們只看到炒作和一切如常,最多隻是認爲另一場與互聯網出現規模相仿的技術變革正在發生。

這份名爲《態勢感知》的文件在發佈後迅速在網絡上引起熱議,有不少網友贊同阿申布倫納的觀點,但也有人認爲他在文中對智能的定義和衡量標準混亂,對趨勢的判斷也缺乏充分依據。

或許只有時間能告訴我們答案,但阿申布倫納在文中提出的種種問題並非憑空捏造,人類確實需要回應超級智能可能帶來的艱鉅挑戰。

來源:S I T U AT I O N A L AWA R E N E S S