☰

騰訊混元兩大核心模型開源

作爲互聯網大廠大模型的典型代表，騰訊混元大模型正在加快開源步伐。

11月5日，騰訊混元宣佈最新的MoE模型“混元Large”以及混元3D生成大模型“ Hunyuan3D-1.0”正式開源，支持企業及開發者精調、部署等不同場景的使用需求，可在HuggingFace、Github等技術社區直接下載，免費可商用。

本次開源是騰訊混元繼文生圖模型後持續開放的一大舉措。其中，騰訊混元Large是目前開源領域參數規模最大、效果最好的MoE模型，而騰訊混元3D生成大模型則是業界首個同時支持文字、圖像生成3D的開源大模型。兩個模型均屬騰訊自研，在架構、算法、數據等方面有獨特創新，填補了行業空白。目前，兩個模型均已經在騰訊業務場景中落地應用，經過實踐的檢驗，是面向實用場景的應用級大模型。

同時，騰訊雲TI平臺和高性能應用服務HAI也開放接入這兩個模型，爲模型的精調、API調用及私有化部署提供一站式服務。

騰訊大模型的一大特點是堅持MoE架構，模型持續升級開放。騰訊混元Large模型總參數量389B，激活參數量52B，上下文長度高達256K，公開測評結果顯示，騰訊混元Large 在CMMLU、MMLU、CEval、MATH等多學科綜合評測集以及中英文NLP任務、代碼和數學等九大維度全面領先，超過Llama3.1、Mixtral等一流的開源大模型。

2024年年初，騰訊混元就宣佈在國內率先採用MoE架構模型，總體性能比上一代Dense模型提升50%。此後，騰訊混元推出基於MoE架構的多模態理解大模型以及基礎模型“混元turbo”。

在模型結構和訓練策略方面，騰訊混元Large全面探索了MoE ScalingLaw，進行了MoE共享專家路由、回收路由等策略上的創新，並引入了專家特化的學習率適配訓練策略，有效提升不同專家利用率和穩定性，帶來模型效果的提升。騰訊混元Large模型專項提升的長文能力已經應用到騰訊AI助手騰訊元寶上，最大支持256K上下文，相當於一本《三國演義》的長度，可以一次性處理上傳最多10個文檔。

同時，騰訊還推出業界首個同時支持文字、圖像生成3D的開源大模型。

騰訊混元3D生成大模型首批開源模型包含輕量版和標準版，輕量版僅需10s即可生成高質量3D資產，目前已在技術社區公開發布，包含模型權重、推理代碼、模型算法等完整模型，可供開發者、研究者等各類用戶免費使用。

開源已經成爲騰訊混元大模型的一個戰略選擇。騰訊方面表示，混元將繼續帶來更多模態、更多尺寸的開源模型，將更多經過騰訊業務場景打磨和檢驗的模型開源，促進大模型技術進步和行業生態繁榮。

騰訊混元兩大核心模型開源

相關資訊