智源發佈原生多模態世界模型Emu3,無需擴散模型

日前,智源研究院方面正式發佈原生多模態世界模型Emu3。據瞭解,該模型只基於下一個token預測,無需擴散模型或組合方法,即可完成文本、圖像、視頻三種模態數據的理解和生成。值得一提的是,目前該模型已開源關鍵技術和模型。

據悉,Emu3提供了一個強大的視覺tokenizer,能夠將視頻和圖像轉換爲離散token,這些視覺離散token可與文本tokenizer輸出的離散token一起送入模型。與此同時,該模型輸出的離散token可以被轉換爲文本、圖像和視頻,爲Any-to-Any的任務提供更統一的研究範式。

此外受益於Emu3下一個token預測框架的靈活性,直接偏好優化(DPO)可無縫應用於自迴歸視覺生成,使得模型與人類偏好保持一致。

據瞭解,Emu3保留了主流大語言模型(即Llama-2)的網絡架構,不同點在於其擴展了Llama-2架構中的嵌入層,以容納離散的視覺token。此外還使用了GQA注意力機制、SwiGLU激活函數和一維旋轉位置編碼(RoPE)等技術,並去除注意力模塊中QKV層和線性投影層中的偏置,並且其還採用0.1的dropout率來提高訓練的穩定性,以及使用QwenTokenizer來對多語言文本進行編碼。

據智源研究院院長王仲遠介紹,自去年以來,智源研發團隊通過不斷探索,爲文字、圖像、視頻發明了一種新“語言”,使得過去難以互通的不同模態信息,能夠在一個統一的空間裡進行表達,從而實現原生多模態世界模型的重要突破。目前,Emu3在圖像生成、視頻生成、視覺語言理解等任務中超過SDXL、LLaVA、OpenSora等開源模型。

王仲遠表示,“Emu3會爲未來多模態基座模型的發展指明一個方向,是下一代的多模態大模型的訓練範式。對於這樣的技術路線,需要各界共同努力,才能加速多模態基座模型的發展。期待在產業轉化過程中,Emu3能夠像悟道系列,與各大模型公司、互聯網企業等合作,共同推進技術的應用”。

不久前,智源研究院研發的開源通用向量系列模型BGE(BAAI General Embedding)登頂Hugging Face月度榜單榜首,據悉這也是中國首個登頂該榜單的模型。據官方透露,在一年內BGE的總下載量已超數億次,同時也是下載量最多的國產AI系列模型。據瞭解,該模型專爲各類信息檢索及大語言模型檢索增強應用打造。

【本文圖片來自網絡】