Scaling Law百度最早提出!OpenAI/Claude受它啓發,致謝中有Ilya
什麼?Scaling Law最早是百度2017年提的?!
Meta研究員翻出經典論文:
大多數人可能不知道,Scaling law原始研究來自2017年的百度,而非三年後(2020年)的OpenAI。
此研究由吳恩達主持,來自百度硅谷人工智能實驗室 (SVAIL) 系統團隊。
他們探討了深度學習中訓練集大小、計算規模和模型精度之間的關係,並且通過大規模實證研究揭示了深度學習泛化誤差和模型大小的縮放規律,還在圖像和音頻上進行了測試。
只不過他們使用的是 LSTM,而不是Transformer;也沒有將他們的發現命名爲「Law」。
再回頭看,其中一位作者Gregory Diamos給自己當年在百度的介紹還是LLM Scaling Law Researcher。
又有一網友發現,OpenAI論文還引用了2019年這位作者Gregory Diamos等人的調查。但卻不知道他們2017年就有了這麼一項工作。
網友們紛紛表示這篇論文非常值得一讀,而且完全被低估。
來趕緊看看這篇論文。
深度學習Scaling是可預測的
在深度學習領域,隨着模型架構的不斷探索、訓練數據集的不斷增大以及計算能力的不斷提升,模型的性能也在不斷提高。
然而,對於訓練集大小、計算規模和模型精度之間的具體關係,一直缺乏深入的理解。
本文通過大規模的實證研究,對多個機器學習領域(如機器翻譯、語言建模、圖像分類和語音識別)進行了測試,發現了一些規律:
泛化誤差(模型在新數據上的表現誤差)與訓練集大小呈現冪律關係,即隨着訓練集的增大,泛化誤差會以一定的冪次下降。
模型大小與與數據大小也存在Scaling(縮放)關係,通常模型大小的增長速度比數據大小的增長速度慢。
具體來說,結合以往工作,團隊將注意力集中在準確估計學習曲線和模型大小的縮放趨勢上。
按照一般測量方法,是選擇最先進的SOTA模型,並在訓練集的更大子集(碎片)上訓練這些模型的 “超參數縮減 ”版本,以觀察模型的準確性如何隨着訓練集的大小而增長。
因此針對這四個領域,機器翻譯、語言建模、圖像分類和語音識別,找到了他們在大型數據集上顯示出 SOTA 泛化誤差的模型架構。
這裡的 “大型數據集 ”是指規模可以縮小 2-3 個數量級,但仍足以進行有價值的模型架構研究的訓練集。他們爲某些 ML 領域選擇了一種以上的模型架構,以比較它們的擴展行爲。
機器翻譯
團隊注意到,隨着訓練集規模的增大,優化變得更加困難,而且模型會出現容量不足的情況,因此經驗誤差會偏離冪律趨勢。
詞語言模型
這一結果表明,最佳擬合模型隨訓練分片大小呈次線性增長。
字符級語言模型
爲了測試字符級語言建模,他們訓練了深度爲 10 的循環高速公路網絡(RHN),結果發現該網絡在十億單詞數據集上能達到最先進的(SOTA)準確率。
圖像分類。
圖像分類同樣呈現出冪律學習曲線和模型大小的縮放關係。並且還表明,在非常小的訓練集上,準確率會在接近隨機猜測的水平上趨於平穩。
語音識別。
團隊訓練了一系列跨度較大的模型尺寸,所以針對每個訓練數據大小得出的模型尺寸縮放結果,其意義不像在語言模型(LMs)或圖像分類中那麼明顯。
隨着數據量的增加,大多數模型會經歷冪律泛化改進,直至數據量接近其有效容量。在這種情況下,參數爲 170 萬的模型的準確率在大約 170 小時的音頻數據時開始趨於平穩,而參數爲 600 萬的模型在大約 860 小時的音頻數據時趨於平穩(也就是說,大約是前者的 5 倍,這與模型尺寸的差異情況類似)。更大的模型(例如,參數爲 8700 萬的模型)在更大的數據集規模下,其泛化誤差也更接近最佳擬合趨勢。
最後對於這一發現,他們表示,這些比例關係對深度學習的研究、實踐和系統都有重要影響。它們可以幫助模型調試、設定準確度目標和數據集增長決策,還可以指導計算系統設計,並強調持續計算擴展的重要性。
博客致謝中還有Ilya的名字
此次研究主要是由當年吳恩達主持下,百度硅谷人工智能實驗室 (SVAIL) 系統團隊。
當時的一羣合著者們已經各自去到各個機構實驗室、大廠繼續從事大模型相關的研究。
在當年博客致謝中,還出現了Ilya的名字,感謝他們參與了這一討論。
兩年後,也就是2019年,其中一位作者Gregory Diamos又帶領團隊探討了深度學習的計算挑戰。
後面的OpenAI論文正是引用了這篇論文的調查討論了Scaling Law。
值得一提的是,Anthropic CEODario Amodei在百度研究院吳恩達團隊工作過,他對Scaling Law的第一印象也是那時研究語音模型產生的。
Amodei剛開始研究語音神經網絡時有一種“新手撞大運”的感覺,嘗試把模型和數據規模同時擴大,發現模型性能隨着規模的增加而不斷提升。
最初,他以爲這只是語音識別系統的特例。但到了2017年,看到GPT-1的結果後意識到這種現象在語言模型上同樣適用。
當年(2015年)他一作發表的論文Deep Speech,合著者中這位Sharan Narang正是兩年後這篇論文的主要作者之一。如今後者先後去到了谷歌擔任PaLM項目TL大模型負責人,然後現在是Meta當研究員。
如今這一“冷知識”再次出現在大家的視野,讓不少人回溯並重溫。
這當中還有人進一步表示:真正的OG論文使用了seq2seq LSTM,並且確定了參數計算曲線。
當年的一作正是Ilya Sutskever。
參考鏈接:[1]https://arxiv.org/abs/1512.02595[2]https://arxiv.org/abs/1909.01736[3]https://research.baidu.com/Blog/index-view?id=89[4]https://www.linkedin.com/in/gregory-diamos-1a8b9083/[5]https://www.linkedin.com/in/dario-amodei-3934934/[6]https://x.com/jxmnop/status/1861473014673797411?s=46&t=iTysI4vQLQqCNJjSmBODPw