「碾壓式」遙遙領先 Sora是如何練成的?

集微網報導 (文/陳興華)一句話生成一段高清影片,OpenAI再次給業內帶來震撼。在OpenAI發佈的近50多個Sora演示影片中,包含細節拉滿的場景、複雜的攝像機以及多個充滿情感的角色。

據OpenAI官網公佈的Sora大模型技術報告顯示,Sora的核心技術主要包括Diffusion Transformer架搆和時空patches。而在締造這一驚世產品背後,Sora團隊成立卻不足1年,而且核心成員僅十餘人,包括研發主管是應屆博士,以及00後和華人成員。

相比傳統文生模型,Sora的突出優勢體現在「大片質感」、「時長感人」以及「匹配自如」等。但需要看到,Sora作爲生成式AI模型的一顆「新星」並不算完美,仍存在一些不成熟之處,比如邏輯性還有待提升,以及在更精細內容的調控方面有待加強。

無論如何,Sora的出現已經給業界帶來了較充分的想象空間,包括被視爲將給衆多行業帶來顛覆式變革。然而,不容忽眡的是,Sora的誕生也意味着中美兩國的AI大模型競爭差距可能還在加大。對此,中國內產業界還需在諸多方面下足功夫、加速追趕。

核心團隊僅十餘人

在Sora模型的震撼業界同時,其幕後主創團隊也引發關注。

據OpenAI在官網發佈的技術報告介紹,Sora創作者團隊僅十餘人,其中Tim Brooks、Bill Peebles是研發主管,Connor Holmes是系統主管。據瞭解,Tim Brooks與Bill Peebles師出同門,都曾於2019年8月進入伯克利深造,受Alyosha Efros教授指導。2023年上半年,兩人一前一後在伯克利獲得博士學位,並相繼加入OpenAI。

Sora作者 圖源:OpenAI官網

在此之前,Tim Brooks本科就讀於卡內基梅隆大學,主修邏輯與計算,曾在Meta軟件工程部門實習,並在谷歌工作近2年,從事Pixel手機部門中的AI相機研究工作。而Bill Peebles本科畢業於麻省理工學院(MIT),主修電腦科學、輔修計算機科學,曾參加GAN 和text2video的研究,以及在Adobe和英偉達深度學習與自動駕駛團隊實習。

另外,Connor Holmes畢業於科羅拉多礦業大學,電氣電子工程學士、高性能計算博士,曾一直在微軟從事研究員工作,2023年12月加入OpenAI,參與Sora、DALL·E等項目。

除了應屆博士管理層,Sora的團隊成員中甚至不乏「00後」的Will DePu。資料顯示,Will DePu於2003年出生於華盛頓州西雅圖市,畢業於加州大學洛杉磯分校格芬學院,曾在高中就參與多個項目研發,並創立了自己的公司。同時,Sora的團隊也有不少老兵坐鎮,包括David Schnurr、Joe Taylor、Aditya Ramesh、Eric Luhman等均有較豐富行業經驗。

值得關注的是,Sora核心名單中還有三名華人研究者。

據悉,Li Jing是DALL-E 3的共同作者,2014年畢業於北京大學物理系,2019年獲MIT物理學博士學位,後在Meta工作兩年,2022年加入OpenAI從事研究工作,包括多模態學習和生成模型。Ricky Wang畢業於加州大學伯尅利分校,此前在Meta和ins任職軟件工程師及工程經理,今年1月從Meta跳槽至OpenAI。雖然Yufei Guo尚未有太多公開資料介紹,不過OpenAI兩大「王炸」項目——GPT-4和Sora中都有他的名字。

從團隊組建情況和研究基礎來看,Sora的核心團隊是一支非常年輕的隊伍,而且開發Sora模型的時間並不長。紐約大學助理教授謝賽寧日前在社交媒體上表示,Sora是Bill Peebles等人在OpenAI的嘔心之作。「Bill告訴我,他們每天基本不睡覺高強度工作了一年。」

此外,根據Sora技術報告的參考文獻,來自谷歌、Meta、MIT等產業界和學術界的技術人員也都作出了重要貢獻。可見Sora是頂級人才匯聚和高強度研發等綜合的結果,正如謝賽寧所言,「對於Sora這樣的複雜系統,人才第一,數據第二,算力第三,其他都沒有什麼不可替代。」

被拒收論文成就「王炸」

在Sora技術報告引述的32篇論文中,第26篇(即「Scalable diffusion models with transformers」)被視爲最重要的一篇,其作者正是Bill Peebles和謝賽寧。儘管謝賽寧稱Sora團隊與自己沒有關係,但其與Bill Peebles曾經的研究爲Sora的實現奠定了基礎。

圖靈獎得主、Meta首席AI科學家楊立昆稱,他的前同事謝賽寧和他在伯克利的學生Bill Peebles前年合著的關於DiT的論文是Sora的重要基礎之一,Sora基本上是基於這篇被ICCV(國際計算機視覺大會)2023收錄的論文提出的框架設計而成。

然而,這篇論文曾因爲「缺乏創新」被CVPR(國際計算機視覺與模式識別會議)2023拒絕。對於被拒收的論文爲何成就了新「王炸」,上海交通大學人工智能研究院副教授王韞博認爲,這與OpenAI的工程能力密不可分。在公開發布的技術信息中,OpenAI也坦言,Sora使用了大規模訓練和超大數據集,但並沒有透露訓練規模和參數細節。

謝賽寧推測,整個Sora模型可能有30億個參數。如果這一推測合理,可能表明訓練Sora模型不需要像人們預期的使用那麼多的GPU算力,而且預計未來大模型的疊代會非常快。他還表示,「Bill和我在DiT項目上工作時,我們沒有創造新奇事物,而是優先考慮兩個方面:簡單性和可擴展性。這些優先事項提供的不僅僅是概念上的優勢。」

Sora生成影片圖片 圖源:OpenAI官網

「簡單性意味着靈活性。Sora可以通過在適當大小的網格中排列隨機初始化的塊來控制生成影片的大小。而可擴展性是DiT論文的核心主題。首先,優化後的DiT在每Flop的牆鍾時間上運行得比UNet快得多。更重要的是,Sora證明了DiT的擴展規律不僅適用於圖像,現在也適用於影片——Sora複製了在DiT中觀察到的視覺擴展行爲。」他說。

據瞭解,Sora的重大突破就在於其所使用的DiT架搆。此前,傳統的文生影片模型通常是擴散模型(Diffusion Model),GPT-4等文本模型則是Transformer模型,而Sora則通過採用DiT架搆融合了兩者的特性。此外,Sora的另一項關鍵技術是Spacetime Patch(時空Patch),該技術的論文是由Google DeepMind的科學家於2023年7月發表。

在技術原理方面,OpenAI公佈的Sora大模型技術報告顯示,基於Diffusion Transformer,從一開始看似靜態噪聲影片出發,經過多步驟的噪聲去除過程逐漸生成影片。而時空patches將不同類型的視覺數據轉化爲統一的表現形式。同時,該模型對語言有着深刻的理解,能夠準確地演繹提示內容,並生成情感表達充分且引人注目的角色。

「碾壓」同行但並不完美

事實上,文生影片並非新鮮事物。在Sora發佈前,知名投資機搆a16z便已追蹤統計了大型科技企業和初創公司發佈的21個公開AI影片模型(截至2023年底),其中包括較爲業界熟知的Runway、Pika、Genmo以及Stable Video Diffusion等。

那麼,Sora憑什麼在還沒有正式開放的情況下就掀起了業界震撼?

國信計算機認爲,首先,Sora可生成60秒超長影片。相較於Runway、Pika等文生影片大模型(生成時長基本均在10秒以內),Sora可以生成60秒一鏡到底的影片。其次,多角度影片一致性。Sora可以在單個生成影片中創建多個鏡頭,以準確保留角色和影片風格。另外,嘗試理解物理世界。根據OpenAI官網披露,Sore不僅可以理解用戶Prompt的要求,同時亦嘗試理解Prompt中的事物在物理世界中的存在方式(即物理規律)。

相比之下,傳統文生影片即便是幾秒鐘的影片也並不連貫,不僅有較強拼湊感,在影片質量、分辨率、高寬比和穩定性等方面還也存在較明顯不足。而Sora所展現出的技術能力,幾乎可以用「碾壓」來形容,從而使得其生成的影片demo色彩豔麗、效果逼真。

在多位行業人士看來,Sora的尤爲「驚豔」之處體現在其對物理世界的理解和模擬能力,包括其帶有「世界模型」的特質,這讓其在逼真度上更勝一籌。所謂「世界模型」便是對真實的物理世界進行建模,讓機器能夠像人類一樣,對世界產生一個全面而準確的認知。

OpenAI顯然也展示出了打造「世界模型」的雄心,例如其在官網發佈的Sora技術報告就取名爲「Video generation models as world simulators(影片生成模型成爲世界模擬器)」。然而,對於Sora是否能真實理解物理世界,業界還存在不同的觀點。

作爲「世界模型」概念的主要倡導者,楊立昆指出,僅僅根據提示詞(prompt)生成逼真影片並不能代表一個模型理解了物理世界,生成影片的過程與基於世界模型的因果預測完全不同,「這其中存在『巨大』的誤導。」此外,要讓AI模型領悟前後兩幀畫面之間的邏輯關聯也非常困難,需要從大量數據中去學習和掌握生成語言、圖像或影片的某種方法。

Sora生成影片圖片 圖源:OpenAI官網

進一步來看,雖然Sora的技術令人驚豔,但影片生成能力並不完美。根據已披露的影片顯示,不少素材仍會「一眼假」,不符合物理學規律等AI生成的Bug(漏洞)不少,例如在呈現「紅酒杯在桌上摔碎」的鏡頭中,杯子摔碎前紅酒已灑滿桌子,違背了物理邏輯。同時,與文本對話和圖片生成相比,訓練成本高昂、高質量數據集的缺乏、影片描述的模糊性和複雜度以及知識產權合規或輸出內容不侵權等,都將是Sora需要跨越的門檻及挑戰。

或許正是考慮到性能、安全和技術實現等問題,Sora尚未向公衆開放,目前處於安全測試階段。據預測,預計Sora將於8月向公衆開放,屆時Sora可能將得到進一步完善升級。

中企有待加速追趕

無論如何,Sora的橫空出世已經引爆了學界、業界和投資界的討論熱度。

在中國內,中信建投、國泰君安、申萬宏源、招商證券等10多家券商在研報中均表示,Sora是人工智能發展進程的里程碑,預示AGI(通用人工智能)將加速到來,衆多行業將迎來顛覆式變革。業內人士指出,Sora會推動上游AI服務器、AI芯片、還有光通信行業發展以及雲廠商基礎設施建設。此外,影視、廣告營銷、遊戱、IP等內容行業都有可能會受益。

然而,在Sora震撼亮相同時,其它國內外的大模型企業也開始了新一輪的競逐,而隨着從文本、圖像再到影片模型的差距進一步拉大,「追趕」又成了新一輪的主題。面對OpenAI的競爭,Pika創始人郭文景迴應:「我們已經在籌備直接衝,將直接對標Sora。」

據瞭解,國內國外的文生影片領域呈現出不同的競爭態勢。

Sora生成影片圖片 圖源:OpenAI官網

在國外,文生影片領域已經形成了「科技巨頭+創業派+專業派」,雖然目前文生影片模型產品以創業公司推出爲主,但科技巨頭基本都已入局,只是產品尚未公測,同時一些輕量化的垂直細分工具企業也在涌現。相比之下,國內企業也在加碼文生影片領域,如百度的UniVG,騰訊的VideoCrafter2,阿里的Animate Anyone以及字節跳動的MagicVideo-V2等,但目前的產業路線、競爭格局和業態還尚不清晰,以及投入力度並不充分等。

有分析稱,中國學術界或產業界有能力實現文生圖,在此基礎上可以產生秒級(10秒以內)影片,但難以做到影片前後語義一致性,或只能侷限於特定場景,這與之前的國際前沿水平差不多,但與Sora相比差距甚大,這是大語言模型和多模態大模型上差距的直接映射。

誠然,儘管中國內大模型近年來取得顯著進展,但與OpenAI、谷歌、英偉達等國際大公司相比,仍存在技術差距。360董事長周鴻禕表示,國內大模型發展水平表面看已經接近GPT-3.5,但實際上跟4.0比還有一年半的差距。OpenAl手裡應該還藏着一些秘密武器,無論是GPT-5,還是機器自我學習自動產生內容以及AIGC…。這樣看來中國跟美國的AI差距可能還在加大。

對於Sora爲什麼沒出現在中國,謝賽寧認爲,假設真的出現了(可能很快),但我們有沒有準備好?如何能保證知識和創意的通暢準確傳播,讓每個人擁有講述和傳播自己故事的「超能力」,做到某種意義上的信息平權,但是又不被惡意利用。而OpenAI有一整套的red teaming(紅隊),safety guardrail(安全護欄)的研究部署,歐美也有逐漸成熟的監管體系。

顯然,Sora在爲國內產業界帶來震撼同時,也再次敲響了「警鐘」。面對這一重要課題,國內企業要迎頭趕上,勢必還需要在技術研發、應用創新、人才培養、市場拓展和共建合作等多方面下足功夫,畢竟人工智能競爭事關未來科技發展和產業變革的絕對高地及主陣地。

(校對/張軼羣)