☰

人工智能從“大煉模型”到“煉大模型”

視覺中國供圖

人工智能可以分爲幾個發展階段：基於數據的互聯網時代、基於算力的雲計算時代，以及接下來可能將進入的基於模型的AI時代，這相當於把數據提升爲超大規模預訓練模型。未來，研究人員可以直接在雲模型上進行微調，很多公司甚至不用維護自己的算法研發團隊，只需要應用工程師即可。

寫小說、和人聊天、設計網頁、編寫吉他曲譜……號稱迄今爲止最“全能”的AI模型GPT-3，當然遠遠不止會這些。作爲2020年人工智能領域最驚豔的模型之一，GPT-3無疑把超大規模預訓練模型的熱度推向了新高。

3月下旬，我國首個超大規模人工智能模型“悟道1.0”發佈，該模型由智源學術副院長、清華大學教授唐傑領銜，帶領來自清華大學、北京大學、中國人民大學、中國科學院等單位的100餘位AI科學家組成聯合攻關團隊，取得了多項國際領先的AI技術突破，形成了超大規模智能模型訓練技術體系，訓練出包括中文、多模態、認知和蛋白質預測在內的系列超大模型。

已啓動4個大模型開發

據悉，“悟道1.0”先期啓動了4個大模型研發項目：以中文爲核心的超大規模預訓練語言模型文源、超大規模多模態預訓練模型文瀾、超大規模蛋白質序列預測預訓練模型文溯，以及面向認知的超大規模新型預訓練模型文匯。

唐傑介紹，文源擁有26億參數，文瀾則爲10億，文溯是2.8億，文匯則達到了百億以上。雖然相對於GPT-3的1750億參數而言還有差距，但“接下來會有更大的模型”。

目前，文源模型參數量達26億，具有識記、理解、檢索、數值計算、多語言等多種能力，並覆蓋開放域回答、語法改錯、情感分析等20種主流中文自然語言處理任務，在中文生成模型中達到了領先的效果。

“目前這些模型既有一些交集，但也存在明顯差異。文源的重點是在中文和跨語言，未來也會加入知識；文瀾的重點主要是圖文；文匯則更多地瞄向認知。”唐傑表示，認知是人工智能技術發展的趨勢和目標，關係到機器是否能像人一樣思考這個終極問題。

“下一代人工智能技術的發展方向一定是認知。”據唐傑介紹，在作詩任務中，目前文匯已經通過了圖靈測試。從算法的角度上來看，文匯能通過圖靈測試的關鍵在於“生成”，而不僅僅限於“匹配”，這種生成能力是多樣的。

被問及爲何會選擇這4個預訓練模型項目時，唐傑說，這是綜合考慮了國內外同行的相關工作、國內人工智能發展的現狀、團隊人員構成、北京區域優勢等作出的決定。“當時GPT-3剛發佈不久，悟道團隊認爲首先要對標其卓越的少樣本學習能力，同時還要做出差異化，做短、中、長3個階段的佈局。於是，中文版GPT-3即清源CPM（文源的前身）應運而生，這是短期佈局。之後，文源要向中英文模型乃至多語言模型發展，這是中期佈局。最後走向認知智能，這是長期佈局。”唐傑說，與此同時，國內頂尖的企業人才、學術人才和自然科學人才所組成的團隊給了項目巨大的想象空間。

大模型有大智慧

自2018年穀歌發佈BERT以來，預訓練模型逐漸成爲自然語言處理（NLP）領域的主流。

2020年5月，OpenAI發佈了擁有1750億參數量的預訓練模型GPT-3。作爲一個語言生成模型，GPT-3不僅能夠生成流暢自然的文本，還能完成問答、翻譯、創作小說等一系列NLP任務，甚至可以進行簡單的算術運算，並且其性能在很多任務上都超越相關領域的專有模型。

以GPT-3爲代表的超大規模預訓練模型，不僅以絕對的數據和算力優勢取代了一些小的算法模型，更重要的是，它展示了一條通向通用人工智能的可能路徑。在此背景下，建設國內的超大規模預訓練模型和生態勢在必行。

在唐傑看來，爲了提高機器學習算法的效率，改變傳統的行業佈局，過去幾年，大家拼命做模型，導致模型越做越多。然而，一般的模型訓練效果並不如人意，花了大量財力精力卻達不到理想的訓練效果，“爲了優化效果、提高精度，模型越來越複雜，數據越來越大，很多公司的能力不足以應對這種狀況，效率越來越低。”唐傑舉了個例子，小鍊鋼廠往往條件簡陋，能鍊鋼，但質量不好。大鍊鋼廠買得起設備、花得起電費，煉出的鋼質量就好，大模型就是大鍊鋼廠，它可以獲得大量數據，並把數據清洗乾淨，提升算力，滿足要求。

與此同時，“小模型可能只需要幾個老師和學生就能完成算法的設計，但是大模型的每一層都要找專人來做，這樣可以把模型的設計和訓練精細化，模型設計也從單打獨鬥變成了衆人拾柴。”唐傑說。

小團隊將成最大受益者

據唐傑透露，團隊目前正在跟北京冬奧會合作，開發可通過文本自動轉成手語的模型，“醫療方面我們的主要方向是癌症早篩，如上傳乳腺癌圖像，找到乳腺癌相關預測亞類，通過影像識別宮頸癌亞類等。”

而談到“悟道1.0”的發展，唐傑坦言，目前還存在需要持續攻關的問題。一是模型能否持續學習的問題，即能否不斷地從新樣本中學習新的知識，並能保存大部分以前已經學習到的知識。就目前來看模型還需要調整，其效果還有待加強；二是面對一些複雜問題，目前模型還無法回答；三是萬億級模型的實用性問題，即如何在保證精度的同時壓縮模型，從而能讓用戶低成本地使用。

“這是一個全新的產業模式。原來大家數據上雲、算力上雲，現在模型上雲。”唐傑說。

他認爲，人工智能可以分爲幾個發展階段：基於數據的互聯網時代、基於算力的雲計算時代，以及接下來可能將進入的基於模型的AI時代，這相當於把數據提升爲超大規模預訓練模型。未來，研究人員可以直接在雲模型上進行微調，很多公司甚至不用維護自己的算法研發團隊，只需要應用工程師即可。

唐傑表示，隨着超大規模預訓練模型系統的開放，小團隊是最大的受益者，大家不必從零開始，預訓練基線智能水平大幅提升，平臺多樣化、規模化，大家在雲上可以找到自己所需的模型，剩下的就是對行業、對場景的理解。這將給AI應用創新帶來全新的局面。

唐傑透露，“悟道1.0”只是一個階段性的成果，今年6月將會有一個規模更大、水平更高的智慧模型發佈。屆時，模型規模會有實質性的進展：模型會在更多任務上突破圖靈測試，其應用平臺的效果也會更加讓人期待。

人工智能從“大煉模型”到“煉大模型”

相關資訊