騰訊混元兩大核心模型開源

作爲互聯網大廠大模型的典型代表,騰訊混元大模型正在加快開源步伐。

11月5日,騰訊混元宣佈最新的MoE模型“混元Large”以及混元3D生成大模型“ Hunyuan3D-1.0”正式開源,支持企業及開發者精調、部署等不同場景的使用需求,可在HuggingFace、Github等技術社區直接下載,免費可商用。

本次開源是騰訊混元繼文生圖模型後持續開放的一大舉措。其中,騰訊混元Large是目前開源領域參數規模最大、效果最好的MoE模型,而騰訊混元3D生成大模型則是業界首個同時支持文字、圖像生成3D的開源大模型。兩個模型均屬騰訊自研,在架構、算法、數據等方面有獨特創新,填補了行業空白。目前,兩個模型均已經在騰訊業務場景中落地應用,經過實踐的檢驗,是面向實用場景的應用級大模型。

同時,騰訊雲TI平臺和高性能應用服務HAI也開放接入這兩個模型,爲模型的精調、API調用及私有化部署提供一站式服務。

騰訊大模型的一大特點是堅持MoE架構,模型持續升級開放。騰訊混元Large模型總參數量389B,激活參數量52B,上下文長度高達256K,公開測評結果顯示,騰訊混元Large 在CMMLU、MMLU、CEval、MATH等多學科綜合評測集以及中英文NLP任務、代碼和數學等九大維度全面領先,超過Llama3.1、Mixtral等一流的開源大模型。

2024年年初,騰訊混元就宣佈在國內率先採用MoE架構模型,總體性能比上一代Dense模型提升50%。此後,騰訊混元推出基於MoE架構的多模態理解大模型以及基礎模型“混元turbo”。

在模型結構和訓練策略方面,騰訊混元Large全面探索了MoE ScalingLaw,進行了MoE共享專家路由、回收路由等策略上的創新,並引入了專家特化的學習率適配訓練策略,有效提升不同專家利用率和穩定性,帶來模型效果的提升。騰訊混元Large模型專項提升的長文能力已經應用到騰訊AI助手騰訊元寶上,最大支持256K上下文,相當於一本《三國演義》的長度,可以一次性處理上傳最多10個文檔。

同時,騰訊還推出業界首個同時支持文字、圖像生成3D的開源大模型。

騰訊混元3D生成大模型首批開源模型包含輕量版和標準版,輕量版僅需10s即可生成高質量3D資產,目前已在技術社區公開發布,包含模型權重、推理代碼、模型算法等完整模型,可供開發者、研究者等各類用戶免費使用。

開源已經成爲騰訊混元大模型的一個戰略選擇。騰訊方面表示,混元將繼續帶來更多模態、更多尺寸的開源模型,將更多經過騰訊業務場景打磨和檢驗的模型開源,促進大模型技術進步和行業生態繁榮。