極佳科技黃冠:爲通用具身智能打造數據引擎,商業化落地速度國內最快丨GenAICon 2024

智東西作者 GenAICon 2024

2024中國生成式AI大會於4月18-19日在北京舉行,在大會第二天的主會場AIGC應用專場上,極佳科技創始人&CEO黃冠博士以《技術與應用閉環,從視頻生成走向世界模型》爲題發表演講。

黃冠認爲,當下所有“通用智能”都在走向“端到端大模型”,一切問題都變成了“高質量數據”問題。“世界模型”是未來具身智能最重要的“高質量數據”來源,它結合互聯網數據、仿真數據、遙操數據、真實採集數據等多種數據,學習、訓練、組合,從而得到交互式物理世界模擬器。

極佳科技正基於世界模型打造新一代數據平臺,面向端到端自動駕駛和通用機器人提供服務。極佳科技DriveDreamer自動駕駛世界模型、WorldDreamer通用世界模型目前已成功商業化落地。

以下爲黃冠的演講實錄:

今天我主要跟大家彙報討論一下我們在視頻生成、世界模型方面相關的思考和進展,以及主要想分享一下我們對於打造通用具身智能新一代數據引擎的想法。

我們總結了通用智能目前大的發展趨勢,整個行業在從以GPT和Sora爲代表的通用內容智能,走向通用行動智能。無論是Agent、自動駕駛還是機器人,其核心是從產生內容到產生行動。當大模型能可靠地產生行動,那麼對整個經濟和社會的影響肯定是更大範圍的,纔是大家所謂的走向真正的“第四次工業革命”。

一、世界模型發展三大方向:視頻生成、自動駕駛、通用機器人

世界模型這個詞一開始是楊立昆提出的,他說GPT不能達到AGI,我們需要世界模型。其實這兩年國內外,大家越來越認識到世界模型的重要性,核心是分三個方向在發展,包括視頻生成、自動駕駛和通用機器人,都非常關注世界模型的進展。

首先是視頻生成。今年年初Sora引爆整個AI圈子,值得注意的是OpenAI並沒有把Sora看成一個單純的文生視頻模型,而是把它叫做World Simulator(世界模擬器),這就有了世界模型的雛形。去年下半年Runway也公開宣佈說他們要走向通用世界模型。

我們也有一個工作叫WorldDreamer,應該是全球比較領先的用Transformer新一代架構,不是Diffusion架構,去走向通用視頻生成和世界模型。

其次我們看到自動駕駛這個行業。既然是世界模型,一定會影響物理世界,會對物理世界有極強的理解和預測能力。

所以我們看到特斯拉從去年年中開始說他們在做General World Model(通用世界模型),同時特斯拉不斷在視頻基礎模型這個方向加大投入。還有Wayve是一家英國的自動駕駛公司,這是比爾·蓋茨在投了OpenAI之後,立馬就去英國投的一家公司,因爲比爾·蓋茨覺得Wayve讓他看到了物理世界AGI的希望。

極佳科技也是國內最早開始做自動駕駛世界模型的公司,我們的模型叫DriveDreamer,目前已經實現了大規模的商業落地應用。

更大的趨勢,大家看到現在在通用機器人方向,伯克利、Covariant做了一系列跟世界模擬器、世界模型相關的工作,包括他們最近發的RFM機器人大模型相關工作。谷歌也在做可交互式的世界模型,人形機器人創企1X也通過世界模型預測未來、實現通用機器人。

全球世界模型跟視頻生成、自動駕駛、通用機器人行業結合起來,正在非常快速發展。

二、通用智能走向端到端大模型,世界模型是最重要的高質量數據來源

目前的趨勢是,所有通用智能都在走向端到端大模型,無論是生成式智能,包括語言、視頻、圖像、3D等的理解和生成;還是具身智能,包括自動駕駛、通用機器人等。

特別是自動駕駛,大家看到最近馬斯克頻頻給特斯拉V12造勢,它是標準的Video-in Action-out(視頻輸入-動作輸出)系統。通用機器人也是最新的硅谷趨勢,大家都在走向端到端、Video-in Action-out這樣一個範式。

在這個趨勢下,一切問題就變成了高質量數據的問題,因爲這已經不再是過去規則驅動的系統了,需要高質量端到端的數據去迭代,去訓練這樣生成式智能或具身智能的系統。

我們認爲,世界模型是未來具身智能最重要的高質量數據來源。現在大家看到有很多種解決數據問題的方式,包括從互聯網的圖像、視頻數據去學習,還有用仿真數據去學習,或者像斯坦福通過ALOHA機器人等遙操設備去做端到端學習,自動駕駛或機器人通過真實採集的數據去學習。

行業裡大家首先通過各種仿真的方式去解決Sim2Real的問題,以及通過更大規模的部署,解決更多真實數據來源的問題。

所以我們認爲未來的數據來源一定會走向世界模型,它會結合上面所有數據去學習訓練組合,得到交互式的物理世界模擬器。

三、基於世界模型打造新一代數據平臺,商業化落地速度國內最快

我們目前在做的事情,就是基於世界模型打造新一代的數據平臺,面向端到端自動駕駛和通用機器人。平臺底層是一個以視頻生成和世界模型爲核心的基礎模型。大家知道Sora目前是不可用的,無論是成本還是速度,我們會追求速度和成本達到數量級的降低。

同時我們會有完備的平臺服務,通過數據方式去服務端到端通用自動駕駛,以及通用機器人的通用操作、通用移動等相關場景,助力具身智能行業爆發。

極佳科技目前在自動駕駛世界模型上,相關技術是全球最領先的之一,同時我們商業化速度也是全球最快的。我們和國內很多主流的頭部主機廠已經開始實際的商業合作,通過世界模型,用於數據生成、閉環仿真等相關方向。

同時,更具想象力和價值的場景,是我們面向通用機器人的世界模型和物理世界模擬器,這個方向我們的技術目前在國內也是比較領先的,同時我們商業化落地速度也是國內最快的。

其核心跟駕駛一樣,首先它可以作爲一個模擬器在通用機器人的數據生成、閉環仿真方面有重要的作用,同時後面也可以作爲方案一部分,走向機器人的端到端方案。這個範式跟過去的自動駕駛和機器人分模塊範式很不一樣,會走向大一統的面向通用具身智能的端到端整體架構。

以上是黃冠演講內容的完整整理。