☰

“世界模型”究竟是什麼？會成爲人工智能的下一個前沿領域嗎？

·世界模型的靈感源於人類自然形成的世界心智模型。我們通過感官獲取的抽象信息在大腦中被轉化爲對周圍世界的具象理解；這些“模型”早在人類開始研究AI之前就已存在。基於這些模型，我們的大腦對世界進行預測，從而影響我們的感知和行動。

·儘管這一概念令人振奮，但仍有許多技術挑戰亟待解決。與目前用於生成式模型的計算量相比，訓練和運行世界模型需要龐大的算力。此外，世界模型也存在幻覺問題。

近年來，人工智能（AI）領域涌現出一種被稱爲“世界模型”（World Models）或“世界模擬器”的新概念，被一些行內人士視爲AI的下一個重大前沿。AI領域的領軍人物李飛飛創立的World Labs（世界實驗室）已籌集了2.3億美元資金，致力於構建“大型世界模型”（LWM）；與此同時，谷歌DeepMind也聘請了OpenAI視頻生成器Sora的創造者之一，參與“世界模擬器”的研究。

什麼是“世界模型”？近日，科技媒體TechCrunch的高級記者凱爾·威格斯（Kyle Wiggers）撰文，梳理了關於“世界模型”的一系列問題，以下是澎湃科技（www.thepaper.cn）編譯。

什麼是世界模型？

世界模型的靈感源於人類自然形成的世界心智模型。我們通過感官獲取的抽象信息在大腦中被轉化爲對周圍世界的具象理解；這些“模型”早在人類開始研究AI之前就已存在。基於這些模型，我們的大腦對世界進行預測，從而影響我們的感知和行動。

AI研究人員大衛·哈（David Ha）和尤爾根·施米德胡伯（Jürgen Schmidhuber）以棒球擊球手爲例，論述了擊球手只有幾毫秒的時間決定如何揮棒，這比視覺信號傳遞到大腦的時間還短。他們之所以能擊中時速160公里的快速球，是因爲他們能本能地預測球的位置。

兩位研究人員寫道：“對於職業選手來說，這一切都是在潛意識中完成的。他們的肌肉會反射性地在正確的時間和位置揮棒，與其內在心智模型的預測一致。他們可以快速根據對未來的預測而採取行動，但無需有意識地推演可能的未來情景以制定計劃。”

正是這種世界心智模型的潛意識推理能力，讓一些科技研究者認爲，世界模型是實現人類級別智能的前提。

世界模型有哪些應用潛力？

儘管這個概念已經存在了幾十年，世界模型最近因其在生成式視頻領域的應用而備受關注。目前，大多數AI生成的視頻都會陷入“恐怖谷”現象，觀看時間稍長就會出現畫面崩壞，如四肢扭曲或融合。

傳統的生成式模型可能能夠準確預測籃球會彈跳，但並不真正理解其中的原因，就像大型語言模型實際上是基於神經網絡的概率推理，給出最可能符合讀者預期的答案，而非真正理解詞語和短語背後的意義。然而，具有基本物理認知的世界模型將更善於展現“籃球的真實彈跳”。

爲了實現這種洞察力，世界模型需要在大量的照片、音頻、視頻和文本數據上進行訓練，旨在創建對世界運作方式的內部表徵，並具備推理行動後果的能力。

Snap前AI主管、現Higgsfield公司CEO亞歷克斯·馬什拉博夫（Alex Mashrabov）表示：“觀衆期望他們觀看的世界與現實相似。如果一根羽毛以鐵砧的重量下落，或者保齡球飛上數百英尺的高空，這會讓觀衆齣戲。有了強大的世界模型，創作者就無需定義每個物體的運動方式——這既繁瑣又低效——因爲模型將能夠自行理解原理。”

然而，改進視頻生成只是世界模型的冰山一角。包括Meta首席AI科學家楊立昆（Yann LeCun）在內的研究人員認爲，這些模型未來可用於數字和物理領域的複雜預測和規劃。

在今年早些時候的一次演講中，楊立昆描述了世界模型如何通過推理來實現目標。一個具有基礎“世界”表示（例如一段髒房間的視頻）的模型，給定一個目標（乾淨的房間），可以推導出一系列行動（使用吸塵器、清洗餐具、倒垃圾）來實現目標。這並非因爲它觀察到了這種模式，而是因爲它在更深層次上理解了事物如何從髒到淨。

“我們需要能夠理解世界的機器；具備記憶、直覺和常識的機器——能夠像人類一樣推理和規劃的機器，”楊立昆表示。“儘管你可能聽到一些最熱情之人的吹噓，但當前的人工智能系統並不具備這些能力。”

雖然楊立昆估計我們距離他設想的世界模型至少還有十年的時間，但當今的世界模型已經顯示出其作爲基本物理模擬器的前景。

OpenAI 在一篇博客中認爲 Sora 是一個世界模型，可以模擬畫家在畫布上留下畫筆筆觸等動作。像 Sora 這樣的模型——以及 Sora 本身——也可以有效地模擬視頻遊戲。例如，Sora 可以渲染類似 Minecraft 的UI和遊戲世界。

World Labs 聯合創始人賈斯汀·約翰遜（Justin Johnson）在a16z播客的一集中表示，未來世界模型可能能夠按需生成3D世界，用於遊戲、虛擬攝影等。

“我們已經有能力創建虛擬的交互式世界，但這需要花費數億美元和大量的開發時間，”約翰遜表示，“‘世界模型’不僅可以讓用戶獲得圖片或視頻片段，還可以獲得一個模擬效果完備、充滿活力的交互式 3D 世界。”

實現世界模型面臨哪些技術挑戰？

儘管這一概念令人振奮，但仍有許多技術挑戰亟待解決。與目前用於生成式模型的計算量相比，訓練和運行世界模型需要龐大的算力。雖然一些最新的語言模型可以在現代智能手機上運行，但Sora（多少算一種早期世界模型）需要數千個GPU來訓練和運行，尤其是在其使用變得普及的情況下。

世界模型和所有AI模型一樣，也會產生幻覺，並內化訓練數據中的偏見。一個主要由歐洲城市晴天視頻訓練的世界模型，可能難以理解或正確描繪韓國城市的雪景。

亞歷克斯·馬什拉博夫指出，訓練數據的匱乏可能會加劇這些問題。“我們已經看到模型在生成某種類型或種族的人物時受到限制，”他說。“世界模型的訓練數據必須足夠廣泛，以涵蓋多樣化的情景，同時也要足夠具體，使AI能夠深入理解這些情景的細微差別。”

AI初創公司Runway的CEO克里斯托瓦爾·瓦倫蘇埃拉（Cristóbal Valenzuela）在最近的一篇文章中表示，數據和工程問題阻礙了當前模型準確捕捉世界中生物（如人類和動物）行爲的能力。“模型需要生成一致的環境地圖，”他說，“並具備在這些環境中導航和互動的能力。”

世界模型能爲具身智能提供技術基礎

如果所有主要障礙都被克服，亞歷克斯·馬什拉博夫認爲，世界模型可以“更穩定地”將AI與現實世界連接起來，不僅在虛擬世界生成方面，而且也在機器人技術和AI決策方面取得突破。

這也可能催生更強大的機器人。如今的機器人在功能上受到限制，因爲它們缺乏對周圍現實世界（或自身身體）的意識。世界模型可以爲它們提供這種意識，至少在一定程度上可以。

“有了先進的世界模型，AI可以對其所處的任何情境形成自身的理解，”他說，“並開始推理出可能的解決方案。”

世界模型能夠爲人工智能提供理解真實的三維物理世界的能力，使人形機器人真正感知真實世界，對具身智能的實現具有重大意義。

“世界模型”究竟是什麼？會成爲人工智能的下一個前沿領域嗎？

相關資訊