碾壓式領先!OpenAI的Sora橫空出世 一級市場怎麼看?

《科創板日報》2月18日訊(記者 敖瑾) OpenAI再次以一款多模態大模型工具引爆全球。這款名爲Sora的文本轉視頻模型,可以基於描述性文字指令,生成長達60秒的視頻,並理解呈現用戶想象中的情緒以及光影。

此前,海內外已有多個創業項目專注於視頻生成領域,但Sora的出現,仍然給這些起跑者帶來不小衝擊。有關注AI領域的一級市場投資人對《科創板日報》記者表示,“大多數項目成立以及在技術探索方面的時間都不算長,目前看來,Sora在技術路線上可以說是處在碾壓式領先的地位,因此很多創業公司的價值可能需要重新判斷了。”

目前,Runway、Pika等AI視頻公司,在一級市場受到風險資金的密切關注。其中,公開資料顯示,Runway截至目前已累計融資超2.5億美元。對於Sora的推出,該公司的聯合創始人Cristóbal Valenzuela在社交媒體上回應表示,“遊戲開始了”。

碾壓式領先的Sora

上述不願具名的AI投資人對記者表示,Sora的出現,代表着當前已經有一個通用的視頻生成方案被探索出來了。“但OpenAI目前公佈出來的,只是整個模型很小的一部分。包括Sora模型需要什麼樣規格的視頻數據,哪個地方需要去做標註,標註的量有多大,過程是人工的還是自動的,這些整體思維目前全世界也只有OpenAI具備。”

OpenAI日前發佈的技術報告,對Sora進行了初步的介紹說明。該報告的內容包括:Sora得以將各類視覺數據轉換爲一個統一的表現方式的方法,這是大規模生成模型訓練實現的前提;以及Sora的能力和侷限性定型評估。但報告並未對模型和實現細節進行披露。

有分析人士解釋稱,Sora的創新性核心在於時空補丁(Spacetime Patches)。

以前文生視頻的方法,要求在訓練中使用的圖像和視頻都具有相同的大小,這需要大量的預處理來將視頻剪裁到合適的大小。但因爲Sora在“補丁”而非完整幀的視頻上進行訓練,所以它可以在任何視頻或圖像上進行訓練,而無需剪裁。這樣做的結果是,Sora可以使用更多數據進行訓練,從而獲得更高質量的輸出。

此外,Sora的另一個重大進步,是它所使用的架構。傳統的文本到視頻模型是擴散模型(diffusion models),上述Runway就是這種模型;而像GPT-4這類模型則爲Transformer架構。Sora則是兩者的結合體。也就是說,Sora不是預測序列中的下一個文本片段,而是預測序列中的下一個“補丁”。通過這種架構,OpenAI可以爲Sora的訓練提供更多的數據和計算資源,並最終達到更高質量的效果。

上述長期關注AI領域的一級市場投資人對《科創板日報》記者表示,OpenAI可以說是點亮了一棵科技樹,“給大家證明了這個東西在哪,你可以去做,至於有沒有能力做到,還是需要大量的時間和工程”。

OpenAI自己也用了“里程碑”這樣的字眼來形容Sora模型。“擴展視頻生成模型,是建立通用物理世界模擬器一個有前景的途徑。”

重構視頻生成領域?

緊隨Sora推出而來的,還有OpenAI的最新融資信息。據媒體援引知情人士消息,OpenAI已經完成了一筆交易,其投後估值目前已達到800億美元或更多,估值在9個月內暴漲兩倍。

而對於其他視頻生成類企業而言,Sora所代表的新技術路線的出現,則意味着公司價值將被市場重新檢驗。上述AI投資人對《科創板日報》記者表示,“‘Sora讓AI創業者和投資人徹夜無眠’的說法,不是標題黨,比如你如果是做視頻生成的,Sora的出現會讓你重新看待自己的方法路線,這就意味着,你之前投入的錢,還有投資人之前投的錢,都有可能浪費掉了。”

光速印度合夥人Hemant Mohapatra在接受媒體採訪時表示,Sora的出現,將會讓一切都發生改變。“它生成的視頻質量之高,會讓庫存視頻生成公司立即感受到威脅。”Adobe的股價走勢或許可以印證這一說法。在Sora面世後,作爲庫存視頻生成公司代表的Adobe股價,應聲下跌超過7%。

其他AI初創公司無疑也將受到Sora面世的影響。目前,全球較爲知名的AI視頻生成初創公司,包括Runway、Pika Labs、Stability AI等,這些公司之前都備受風險資金的關注。

其中,Runway成立於2018年,是較早的AI視頻創業項目。截至目前,Runway在一級市場融資金額已超過2.5億美元,投資方包括谷歌、英偉達等衆多知名機構,項目估值達到15億美元。該公司數月前剛發佈了Gen-2模型,目前已對外開放使用。

Pika Labs則因爲其創始人身份,年前在國內亦火爆了一把。目前,成立僅半年多的Pika,已累計融資超5500萬美元,其投資方包括Lightspeed Venture Partners等硅谷衆多知名風險投資機構以及投資人。

而除了初創公司,谷歌、Meta等大公司也都在進行視頻生成技術的探索。其中,Meta在2022年就發佈了首款視頻生成工具,名爲Make-A-Video。去年,其又測試了新的文生成視頻模型Emu Video,扎克伯格曾表示該模型將被嵌入Facebook和Instagram。

上述AI投資人對記者表示,隨着Sora所代表的新技術路線的出現,這些更早入局的AI視頻公司價值可能會經歷重構,而對於國內公司,其表示目前總體還處在追趕狀態,短期內出現類似Sora這樣的模型或許較難。

“去年一年我們追趕的速度已經很快了,但這個過程還是受到了包括算力、工程等方面因素的制約。在模型足夠成熟之前,很難有更多的應用出現,所以還是要一步一步來。”