彩雲科技CEO袁行遠:如果底層模型沒突破 AI將停滯不前
5月23日消息,日前,彩雲科技發佈了全新通用模型結構DCFormer,其相關論文《Improving Transformers with Dynamically Composable Multi-Head Attention 》將在第41屆國際機器學習大會ICML 2024正式發表。
在論文中,彩雲科技實驗證明了在三千億級訓練數據和70億級模型參數量下,DCFormer效率是Transformer的兩倍。據一位評委透露,今年錄用論文的平均分爲4.25-6.33,而彩雲科技團隊的論文獲得平均7分的高分,這說明彩雲科技的此項研究成果獲得了學術界認可,彩雲科技具備全球領先的AI技術實力。
資料顯示 ,ICML是國際機器學習領域的頂級會議,能夠發表論文的中國初創企業屈指可數。彩雲科技證實,其大模型結構DCFormer可以達到1.7~2倍算力的Transformer模型的效果,即算力智能轉化率提升了1.7~2倍。在衆多NLP下游任務和圖像識別任務上的測評也驗證了DCFormer的有效性。DCFormer對性能算力比的提升幅度超過自2017年Transformer誕生至今被證明最普適有效並被廣泛採用的兩項結構改進的提升幅度之和(同時應用這兩項改進的Transformer架構也叫Transformer++,如Llama)。而且隨着模型規模的增大,DCFormer的提升越來越大(左圖下的藍線和綠線),而Transformer++的提升越來越小(左圖下的黑線)。可以說,DCFormer讓Transformer的能力又躍上一個新臺階。
彩雲科技CEO袁行遠說:"如果底層模型沒有突破,人工智能的進步終將停滯不前。人人都說神經網絡是個黑盒,我們需要勇氣和耐心打開這個黑盒,通過分析模型運轉原理,我們才能知道智能的本質規律,從而可以改進模型,提高模型的運行效率。"
通用大模型DCFormer將Transformer效率提升了兩倍,這意味着什麼?袁行遠解釋說:"如果 GPT-4o 能夠用上DCFormer,推理一次128k上文的成本,就可能從4元變成2元。而且DCFormer 模型越大,效果越好,考慮到ChatGPT的巨大參數量,DCFormer可能在千億、萬億模型上效果更好,因此價格甚至可能下降到1.5元、1元。Meta的100億美元顯卡訓練的模型,可能50億美元就能夠用。"解開智能的科學的奧秘,實現通用人工智能——這是彩雲科技10年以來孜孜不倦追求的目標。基於此,彩雲科技在Github上開源了DCFormer的模型代碼、權重和訓練數據集。
據悉,未來彩雲科技會將全新大模型DCFormer應用於旗下三款app,並將進一步發展彩雲小夢,加速提升AI續寫能力。(定西)
本文系本站科技報道,更多新聞資訊和深度解析,關注我們。