MiniMax 國內首個 MoE 大語言模型上線 擁有處理複雜任務能力

【本站科技1月16日報道】今日,MiniMax宣佈國內首個MoE大語言模型abab6上線,經過了半個月的內測和部分客戶反饋,該模型在MoE結構下,擁有處理複雜任務的能力,並在單位時間內提升了訓練效率。相較於之前版本abab5.5,在處理更復雜和對模型輸出有更精細要求的場景中做出了改進。

據介紹,自2023年4月發佈開放平臺以來,MiniMax已服務近千家客戶,包括金山辦公、小紅書、騰訊、小米和閱文等多家互聯網公司。MiniMax開放平臺平均單日token處理量達數百億。

據瞭解,MiniMax表示abab5.5與先進模型GPT-4相比仍有差距,主要表現在處理更復雜場景時可能違反用戶要求的輸出格式或發生錯誤。爲解決此問題,MiniMax自6月份開始研發MoE模型abab6,參數規模更大,有望在複雜任務下取得更好效果。

此外,擴大參數規模可能帶來推理速度降低和訓練時間延長的問題,爲保證abab6的運算速度,MiniMax採用MoE結構,將模型參數劃分爲多組“專家”,每次推理只有一部分專家參與計算。這一結構使abab6在處理複雜任務時更爲高效,目前是國內首個千億參數以上的基於MoE結構的大語言模型。(江淼)

本文系本站科技原創報道,更多新聞資訊和深度解析,關注我們。