☰

風口預警！Meta一分鐘文本轉3D模型炸場，遊戲規則改變，賽道着火

Meta放大招！發佈3D生成最新成果——Meta 3D Gen。

號稱1分鐘內即可文本端到端高質量轉3D，包括高質量紋理和基於PBR材質（基於物理的渲染）貼圖的3D Mesh。

支持修改已有的3D對象/模型的紋理。

例如，編織風：

像素風：

暗黑恐怖風：

單拎出來一隻金屬哈巴修狗，毛髮紋理等各種細節拉滿：

搭配其它工具裝上骨架讓3D模型動起來，效果也可以用“精細”兩字形容：

有網友看到此效果直呼“改變行業遊戲規則”、“改變工作流程”。

還有不少網友認爲生成的模型可以直接3D打印了：

不過，這次Meta 3D Gen的發佈木有代碼，木有Demo可玩。

與效果一同發佈的，是一份技術報告以及兩篇論文，介紹了Meta 3D Gen背後用於文本到3D生成和文本到紋理生成的方法。

翻看技術報告，原來Meta 3D Gen是一種組合系統，基於Meta另外兩項研究，即同時發佈的兩篇論文：Meta 3D AssetGen、Meta 3D TextureGen。

Meta 3D AssetGen用於文本到3D對象的生成（第一階段），Meta 3D TextureGen用於文本到紋理的生成（第二階段），兩者是Meta 3D Gen的關鍵組件。

AssetGen負責從文本描述生成完整的3D對象，其工作流程大致爲:

1）用一個神經網絡根據文本描述生成多個2D視圖；2）使用另一個神經網絡從這些2D視圖重建3D Mesh和初始紋理；3）通過融合重投影的紋理來優化初始紋理。

TextureGen負責爲給定的3D對象生成紋理。它接收一個3D對象（包含形狀和UV座標信息等）和一個文本描述作爲輸入，工作流程大致爲:

1）使用一個神經網絡生成這個3D對象的多個2D視圖；2）將這些2D視圖重新投影到對應的紋理圖像上；3）另一個神經網絡將這些紋理和原始文本描述結合，生成一個完整的UV紋理；4）可以選擇使用一個超分辨率網絡來提高紋理的分辨率。

值得一提的是，TextureGen中的紋理融合和增強網絡基於3D藝術家提供的“真實”UV圖進行訓練，與AssetGen生成的自動提取的UV圖大有不同。

而Meta 3D Gen集成了這兩種方法，所以整體流程是：

首先使用AssetGen生成初始的3D形狀和UV映射。然後，使用TextureGen的第一個網絡，基於這個3D形狀生成更高質量的2D視圖。接着，使用TextureGen的第二個網絡，從這些高質量視圖生成統一的UV紋理。最後，使用AssetGen的紋理優化網絡進行最終的紋理融合和增強。

以下是在Meta 3D Gen在第一階段（左）和第二階段（右）後的視覺對比：

方法細節，感興趣的家人們可以查看技術報告和論文，重點來看效果測試。

基準測試部分，Meta 3D Gen的比較對象包括：CSM Cube 2.0、Tripo3D、Rodin Gen-1 V0.5、Meshy v3和一個第三方文本轉3D生成器。

定量比較方面，Meta使用了404個來自DreamFusion的不同文本提示（分爲物體、角色和組合場景三類，難度由低到高）讓模型進行3D生成。

然後讓普通用戶和專業3D藝術家對模型在不同測試類別中的表現進行評估和打分，評估指標包括提示保真度、整體視覺質量、幾何質量和紋理質量。

評估針對每個模型單獨進行或通過隨機A/B測試來比較不同模型的表現。

根據Meta的測試結果，首先在生成時間方面，Meta 3D Gen僅需1分鐘，超越所有其它方法（3分鐘到1小時不等）：

文本提示保真度，即模型的生成與文本prompt的符合度，Meta 3D Gen和其它模型的比較結果如下：

整體Meta 3D Gen效果最佳，Tripo3D、Third-part T23D generator與其相差不大，CSM Cube 2.0、Rodin Gen-1 V0.5稍顯遜色。

值得一提的是，用於對比的工業基線中，Tripo3D來自國內玩家VAST，Meshy則是胡淵鳴在太極圖形之後創辦的獨立新品牌。

在難度最高的組合類場景生成中，Tripo3D排名第二，與Meta 3D Gen相近，但卻在最簡單的物體生成上表現不如Meta，拉低了整體評分。

A/B測試方面，主要是爲了比較Meta 3D Gen和那些同時生成紋理和使用PBR材料的基準模型。所有用戶、僅專業3D藝術家的評估結果分別如下，Meta 3D Gen在大多數指標上表現優於競爭者：

此外，Meta還分析了不同3D生成模型在處理不同複雜度的場景時的性能，下圖是Meta 3D Gen與基線方法相比的勝率。

縱座標是Meta win rate，低於50%說明對比方法比Meta好，折線越低方法越好。

結果顯示，隨着場景複雜度增加，例如從單一對象過渡到包含多個角色和元素的複合場景生成，Meta 3DGen的表現開始顯著優於其它模型。

接下來再看定性比較。

相同提示詞，不同模型文本提示保真度對比是這樣嬸兒的：

除了Meta 3D Gen，Tripo3D表現也不錯，比如第一個生成帶有“GenAI”logo的金屬羊駝的例子，Meta 3D Gen雖然在logo生成上表現很好，但腿部生成明顯有缺陷，而Tripo3D的腿部生成更勝一籌，且紋理細節也很好。第二個壽司測試，CSM則表現優異。

第三個“半獸人在砧板上鍛造錘子”的例子，Tripo3D和Meta各有優勢。Tripo3D紋理和幾何細節更豐富、orc更保真、“鍛造錘子”也展現出來了；Meta的砧板相對好些，但整體紋理細節差些。

其它幾個模型的結果語義丟失嚴重。

此外，針對紋理的對比結果如下，在下面的這張圖中，Meta 3D Gen的紋理細節處理的很細緻：

Meta 3D Gen的發佈，無疑給持續升溫的3D生成賽道又添了一把火。

在對比測試中，也不乏國內玩家的身影，比如Tripo 3D就是由AI初創公司VAST在今年初推出的3D生成大模型。

VAST創始人兼CEO爲宋亞宸，此前在商湯負責AIGC技術在動畫及遊戲等行業實際落地，也曾參與創立AI獨角獸Minimax。CTO樑鼎是商湯的通用模型負責人、首席科學家曹炎培曾在騰訊AI Lab領導AIGC 3D方向的研發工作。

此外，Meshy模型也是由國內玩家打造。

Meshy聯合創始人兼CEO是計算機圖形學知名學者胡淵鳴，胡淵鳴畢業於清華大學姚班，也是MIT博士、太極（TaiChi）編程語言作者。

說回Meta 3D Gen，雖然根據Meta的技術報告，Meta 3D Gen的表現在很多方面超過了基準模型，不過也有人對此測試結果表示存疑。

首先在生成時間上，就有網友表示給CSM Cube 2.0標的時間不準確：

據量子位測試，其實Tripo3D最新Web版生成時間也縮短了，Stage1是10秒左右，Stage2現在只需要2分鐘。

據量子位在Tripo Discord beta頻道測試，Tripo3D新版幾何質量也有了進一步提升：

Tripo團隊發文表示更好的幾何和PBR都在路上了：

另一邊，胡淵鳴也發推文表示，Meshy很快就會發布速度提升10倍的模型。

Rodin團隊也出面表示歡迎Meta加入3D生成賽道，未來想制定更綜合和合理的3D生成評判標準。

除此之外還有網友認爲，沒有Demo大家又玩不上，對於Meta 3D Gen很難評。

雀食，Tripo3D、Meshy等模型都是可以玩的。

而且還不是簡單玩玩，開頭網友說的3D打印甚至已經落地了。

就拿Tripo3D來說，不僅在全球最大的3D素材交易網站-CG模型網已上線藝術家內測版本：

而且已經和全球家用3D打印機龍頭企業們達成合作，拓竹的Markerworld和Anycubic旗下的模型社區網站Makeronline等都已上線，3D打印愛好者們可以嘗試起來了！

在行業探索上，Meshy之前和Snap達成合作上線了AI 3D特效，CSM則做了更多產品化的探索，上線了Cube。

全球AI藝術家也在3D生成賽道上捲起來了，Tripo上個月做了全球第一個AI 3D全球渲染大賽，目前正在和CivitAI一起舉辦AI電影大賽Project Odyssey。

這次潑天的熱度算是落到3D生成賽道了。

參考鏈接：[1]https://x.com/AIatMeta/status/1808157832497488201[2]https://ai.meta.com/research/publications/meta-3d-gen/[3]https://x.com/tripoai/status/1808427964339470445[4]https://x.com/DeemosTech/status/1808207652188836020[5]https://x.com/YuanmingH/status/1808352082824683818

風口預警！Meta一分鐘文本轉3D模型炸場，遊戲規則改變，賽道着火

相關資訊