風口預警!Meta一分鐘文本轉3D模型炸場,遊戲規則改變,賽道着火
Meta放大招!發佈3D生成最新成果——Meta 3D Gen。
號稱1分鐘內即可文本端到端高質量轉3D,包括高質量紋理和基於PBR材質(基於物理的渲染)貼圖的3D Mesh。
支持修改已有的3D對象/模型的紋理。
例如,編織風:
像素風:
暗黑恐怖風:
單拎出來一隻金屬哈巴修狗,毛髮紋理等各種細節拉滿:
搭配其它工具裝上骨架讓3D模型動起來,效果也可以用“精細”兩字形容:
有網友看到此效果直呼“改變行業遊戲規則”、“改變工作流程”。
還有不少網友認爲生成的模型可以直接3D打印了:
不過,這次Meta 3D Gen的發佈木有代碼,木有Demo可玩。
與效果一同發佈的,是一份技術報告以及兩篇論文,介紹了Meta 3D Gen背後用於文本到3D生成和文本到紋理生成的方法。
翻看技術報告,原來Meta 3D Gen是一種組合系統,基於Meta另外兩項研究,即同時發佈的兩篇論文:Meta 3D AssetGen、Meta 3D TextureGen。
Meta 3D AssetGen用於文本到3D對象的生成(第一階段),Meta 3D TextureGen用於文本到紋理的生成(第二階段),兩者是Meta 3D Gen的關鍵組件。
AssetGen負責從文本描述生成完整的3D對象,其工作流程大致爲:
1)用一個神經網絡根據文本描述生成多個2D視圖;2)使用另一個神經網絡從這些2D視圖重建3D Mesh和初始紋理;3)通過融合重投影的紋理來優化初始紋理。
TextureGen負責爲給定的3D對象生成紋理。它接收一個3D對象(包含形狀和UV座標信息等)和一個文本描述作爲輸入,工作流程大致爲:
1)使用一個神經網絡生成這個3D對象的多個2D視圖;2)將這些2D視圖重新投影到對應的紋理圖像上;3)另一個神經網絡將這些紋理和原始文本描述結合,生成一個完整的UV紋理;4)可以選擇使用一個超分辨率網絡來提高紋理的分辨率。
值得一提的是,TextureGen中的紋理融合和增強網絡基於3D藝術家提供的“真實”UV圖進行訓練,與AssetGen生成的自動提取的UV圖大有不同。
而Meta 3D Gen集成了這兩種方法,所以整體流程是:
首先使用AssetGen生成初始的3D形狀和UV映射。然後,使用TextureGen的第一個網絡,基於這個3D形狀生成更高質量的2D視圖。接着,使用TextureGen的第二個網絡,從這些高質量視圖生成統一的UV紋理。最後,使用AssetGen的紋理優化網絡進行最終的紋理融合和增強。
以下是在Meta 3D Gen在第一階段(左)和第二階段(右)後的視覺對比:
方法細節,感興趣的家人們可以查看技術報告和論文,重點來看效果測試。
基準測試部分,Meta 3D Gen的比較對象包括:CSM Cube 2.0、Tripo3D、Rodin Gen-1 V0.5、Meshy v3和一個第三方文本轉3D生成器。
定量比較方面,Meta使用了404個來自DreamFusion的不同文本提示(分爲物體、角色和組合場景三類,難度由低到高)讓模型進行3D生成。
然後讓普通用戶和專業3D藝術家對模型在不同測試類別中的表現進行評估和打分,評估指標包括提示保真度、整體視覺質量、幾何質量和紋理質量。
評估針對每個模型單獨進行或通過隨機A/B測試來比較不同模型的表現。
根據Meta的測試結果,首先在生成時間方面,Meta 3D Gen僅需1分鐘,超越所有其它方法(3分鐘到1小時不等):
文本提示保真度,即模型的生成與文本prompt的符合度,Meta 3D Gen和其它模型的比較結果如下:
整體Meta 3D Gen效果最佳,Tripo3D、Third-part T23D generator與其相差不大,CSM Cube 2.0、Rodin Gen-1 V0.5稍顯遜色。
值得一提的是,用於對比的工業基線中,Tripo3D來自國內玩家VAST,Meshy則是胡淵鳴在太極圖形之後創辦的獨立新品牌。
在難度最高的組合類場景生成中,Tripo3D排名第二,與Meta 3D Gen相近,但卻在最簡單的物體生成上表現不如Meta,拉低了整體評分。
A/B測試方面,主要是爲了比較Meta 3D Gen和那些同時生成紋理和使用PBR材料的基準模型。所有用戶、僅專業3D藝術家的評估結果分別如下,Meta 3D Gen在大多數指標上表現優於競爭者:
此外,Meta還分析了不同3D生成模型在處理不同複雜度的場景時的性能,下圖是Meta 3D Gen與基線方法相比的勝率。
縱座標是Meta win rate,低於50%說明對比方法比Meta好,折線越低方法越好。
結果顯示,隨着場景複雜度增加,例如從單一對象過渡到包含多個角色和元素的複合場景生成,Meta 3DGen的表現開始顯著優於其它模型。
接下來再看定性比較。
相同提示詞,不同模型文本提示保真度對比是這樣嬸兒的:
除了Meta 3D Gen,Tripo3D表現也不錯,比如第一個生成帶有“GenAI”logo的金屬羊駝的例子,Meta 3D Gen雖然在logo生成上表現很好,但腿部生成明顯有缺陷,而Tripo3D的腿部生成更勝一籌,且紋理細節也很好。第二個壽司測試,CSM則表現優異。
第三個“半獸人在砧板上鍛造錘子”的例子,Tripo3D和Meta各有優勢。Tripo3D紋理和幾何細節更豐富、orc更保真、“鍛造錘子”也展現出來了;Meta的砧板相對好些,但整體紋理細節差些。
其它幾個模型的結果語義丟失嚴重。
此外,針對紋理的對比結果如下,在下面的這張圖中,Meta 3D Gen的紋理細節處理的很細緻:
Meta 3D Gen的發佈,無疑給持續升溫的3D生成賽道又添了一把火。
在對比測試中,也不乏國內玩家的身影,比如Tripo 3D就是由AI初創公司VAST在今年初推出的3D生成大模型。
VAST創始人兼CEO爲宋亞宸,此前在商湯負責AIGC技術在動畫及遊戲等行業實際落地,也曾參與創立AI獨角獸Minimax。CTO樑鼎是商湯的通用模型負責人、首席科學家曹炎培曾在騰訊AI Lab領導AIGC 3D方向的研發工作。
此外,Meshy模型也是由國內玩家打造。
Meshy聯合創始人兼CEO是計算機圖形學知名學者胡淵鳴,胡淵鳴畢業於清華大學姚班,也是MIT博士、太極(TaiChi)編程語言作者。
說回Meta 3D Gen,雖然根據Meta的技術報告,Meta 3D Gen的表現在很多方面超過了基準模型,不過也有人對此測試結果表示存疑。
首先在生成時間上,就有網友表示給CSM Cube 2.0標的時間不準確:
據量子位測試,其實Tripo3D最新Web版生成時間也縮短了,Stage1是10秒左右,Stage2現在只需要2分鐘。
據量子位在Tripo Discord beta頻道測試,Tripo3D新版幾何質量也有了進一步提升:
Tripo團隊發文表示更好的幾何和PBR都在路上了:
另一邊,胡淵鳴也發推文表示,Meshy很快就會發布速度提升10倍的模型。
Rodin團隊也出面表示歡迎Meta加入3D生成賽道,未來想制定更綜合和合理的3D生成評判標準。
除此之外還有網友認爲,沒有Demo大家又玩不上,對於Meta 3D Gen很難評。
雀食,Tripo3D、Meshy等模型都是可以玩的。
而且還不是簡單玩玩,開頭網友說的3D打印甚至已經落地了。
就拿Tripo3D來說,不僅在全球最大的3D素材交易網站-CG模型網已上線藝術家內測版本:
而且已經和全球家用3D打印機龍頭企業們達成合作,拓竹的Markerworld和Anycubic旗下的模型社區網站Makeronline等都已上線,3D打印愛好者們可以嘗試起來了!
在行業探索上,Meshy之前和Snap達成合作上線了AI 3D特效,CSM則做了更多產品化的探索,上線了Cube。
全球AI藝術家也在3D生成賽道上捲起來了,Tripo上個月做了全球第一個AI 3D全球渲染大賽,目前正在和CivitAI一起舉辦AI電影大賽Project Odyssey。
這次潑天的熱度算是落到3D生成賽道了。
參考鏈接:[1]https://x.com/AIatMeta/status/1808157832497488201[2]https://ai.meta.com/research/publications/meta-3d-gen/[3]https://x.com/tripoai/status/1808427964339470445[4]https://x.com/DeemosTech/status/1808207652188836020[5]https://x.com/YuanmingH/status/1808352082824683818