分析丨OPEN AI投資Pika,文生視頻2024將會爆火?
·聚焦:人工智能、芯片等行業
歡迎各位客官關注、轉發
前言:
隨着文生視頻軟件技術的不斷進步,AIGC技術對多業態應用的賦能將加速實現。
自人工智能推出以來,其已經逐漸從理論框架走向實際應用,其對人力和財力成本的節省效果也將在上市公司的業績中逐漸體現出來。
這種變化將對多個行業產生深遠影響,併爲投資者提供更多有價值的投資機會。
作者| 方文三
圖片來源 |網 絡
Pika 1.0發佈易用性被認可
2023年11月29日,Pika labs正式發佈了其全新的文生視頻產品Pika 1.0。
該產品的視頻生成效果和易用性均得到了廣泛認可,並在市場上引起了熱烈的討論。
目前Pika社區已經發展到50萬名用戶,每週生成數百萬個視頻。
Pika的創始人是兩位斯坦福大學人工智能實驗室的前博士生郭文景和ChenlinMeng,目前Pika已融資3輪,估值超過2億美元。
Pika1.0的功能主要包括五方面:文本生成視頻以及圖像生成視頻、視頻之間不同風格轉換、擴展格式、改變局部內容、擴展視頻長度。
這是一次重大的產品升級,包括一個新的AI模型,能夠生成和編輯各種風格的視頻,如3D動畫、動漫、卡通和電影。
Pika1.0附帶一個工具,可延長現有視頻的長度或將其轉換爲不同的風格,例如[真人]到[動畫],或者擴展視頻的畫布或寬高比。
支持三種模態的提示輸入,讓Pika Labs 1.0直接[對齊]了runway家族的幾乎所有的功能。
一連串投資人名單非常豪華,幾乎所有AI領域的知名公司都參與了此輪融資:
LightspeedVenturePartners領投,Homebrew
ConvictionCapital、SV參與,Angel、Ben'sBites。
Quora創始人AdamD'Angelo、前GitHub首席執行官NatFriedman和Giphy聯合創始人AlexChung也是投資人。
OpenAI的科學家Karpathy對圖像與視頻生成領域的最新發展保持高度關注。他還參與了Pika Labs最近一輪的投資。
在發佈新產品的同時,Pika Labs正式宣佈已完成新一輪融資。
此次融資總額爲5500萬美元,其中包括種子前輪和種子輪投資,由Nat Friedman和Daniel Gross領投。
遊戲傳媒業態或率先受益
目前,一些專注於短視頻內容AI口型匹配和翻譯的應用,如HeyGen,以及近期備受矚目的Pika所展現的可編輯性和電影級效果,都是迅速找到與自身產品相契合的市場。
隨着AIGC技術在影視劇集、宣傳視頻等領域逐步滲透,視頻創作效率有望迎來顯著提升。
隨着Pika在文生視頻領域的應用驗證,業內普遍認爲遊戲傳媒類上市公司或將率先受益。
值得關注的是,目前多家遊戲傳媒類上市公司已成功將AIGC技術運用到視頻或遊戲素材的創作中。
賦能遊戲傳媒類上市公司只是應用層落地的一個開端,AIGC與多業態相結合將是未來的趨勢。
如果該產品能夠進一步發展成爲爆款應用,將有望提振市場對AI應用落地的信心。
參考文生圖在廣告領域的應用,文生視頻同樣有望推動生產力革命,降低生產成本和創作門檻,從而加速AIGC技術的產業化進程。
從能力的角度來看,文生視頻有望率先在短視頻和動漫兩個領域落地。這將爲這兩個行業帶來更多的創新和可能性,進一步推動其發展。
AI視頻遠沒到GPT時刻
從目前文生視頻模型的實際應用效果來看,其生成效果在時長、分辨率和內容合理性方面仍存在一定的限制,這主要源於視頻場景的複雜性。
在數據收集方面,與文生圖模型相比,文生視頻模型需要處理的數據更爲複雜。
爲了學習字幕、幀照片寫實感和時間動態,文生視頻模型需要大量的數據進行訓練。
同時,由於視頻長度不一,將視頻切分成固定幀數的片段會破壞文本與時間之間的對應關係,進而影響模型的訓練效果。
此外,從技術角度考慮,要想生成高質量的視頻,需要具備強大的計算與推理能力。
當前的文生視頻模型在理解視頻對象運動連貫性、日常與非日常場景變化等方面仍有待提升。
從商業模式來看,文生視頻應用的商業化模式與圖片生成相似,主要是按照生成量來定價。
與文生圖應用的早期商業化進程相比,文生視頻應用仍有很長的路要走。
整體來講,AI文生視頻領域處於極早期的狀態,很難實現精準超長時間和視頻質量的滿足條件下完成對行業效率的提升。
各家的優化和迭代速度都較慢
視頻是由多幀圖像組合而成,而文生視頻在文生圖的基礎上增加了時間維度,技術實現難度更大。
儘管像Meta和Google這樣的硅谷AI巨頭在文生視頻領域進展緩慢,它們分別推出的Make-A-Video和Phenaki都尚未公測。
文生視頻的底層模型和技術仍在不斷優化中,尚未篩選出最優模型。
該技術主要經歷了基於GAN和VAE、基於Transformer模型、基於擴散模型三個階段。
目前主流的文生視頻模型主要依託Transformer模型和擴散模型。
基於Transformer的代表Phenaki突破了視頻生成時長限制,但效果相對粗糙缺少細節;
而基於擴散模型的代表Make-AVideo則更注重提升視頻質量,但其視頻時長均在4s以內。
目前可公測的文生視頻應用較少,僅有RunwayGen-2、ZeroScope及Pika Labs等少數幾個。
這些應用存在一些共同問題,如複雜人物動作生成幀連續效果較差、非日常場景的視頻架構能力連續能力一般、多主體視頻生成缺乏邏輯連續性等。
目前,PiKa等AI文生視頻工具都處於1.0之下的版本。
相對於競爭對手如runwayntwo等有更好的視頻分辨率和影視感,但對靜態圖片的處理能力相對較差。
但它在專業化的視頻內容生產上還有很大的距離,需要大量的數據和模態以及專業能力的結構來完成。
總體而言,文生視頻的商用化程度較低。但從圖片生成的應用來看,其商業前景值得期待。
圖片生成類應用在多模態大模型中表現出較強的收費能力,應用數量上佔比最高。
目前唯一收費的文生視頻應用(Runway Gen-2)的商業模式與圖片生成趨同,即主要按照生成量定價。
結尾:
當前,市場普遍認爲AI應用已經逐步步入成熟期,但尚未出現具有顛覆性的殺手級應用。
儘管如此,AI應用的發展仍處於早期階段,對應的算力需求遠未達到頂峰。
部分資料參考:硅基研究室:《Pika爆火,但AI視頻還沒到「GPT時刻」》,半兩財經:《Pika爆火背後“女兒概念股”凸顯國產AI應用焦慮》,電子發燒友網:《文生視頻Pika 1.0爆火!一句話生成視頻,普通人也能當“導演”》
本公衆號所刊發稿件及圖片來源於網絡,僅用於交流使用,如有侵權請聯繫回覆,我們收到信息後會在24小時內處理。
請務必註明:
「姓名 + 公司 + 合作需求」