我跟萬聖節的AI次元壁,看起來要被 PixVerse V3 打破了

這或許會是你和AI一起過的第一個萬聖節。

作者 | 甘德編輯| 鄭玄

近日,OpenAI 和 Sora 項目的動盪讓外界對熱鬧的 AI 視頻行業捏了一把汗。

9 月末,OpenAI 首席技術官米拉·穆拉蒂(Mira Murati),以及在 o1 模型、GPT-4o、GPT-4v 模型的開發過程中扮演了重要角色的研究副總裁巴雷特·佐夫(Barret Zoph)與首席研究官鮑勃·麥克格盧(Bob McGrew)也宣佈離職。

10 月 4 日,Sora 項目負責人蒂姆・布魯克斯(Tim Brooks)在社交平臺 X 上官宣離職,加入谷歌 DeepMind。

如果搭配 Sora 正式版一直沒有確切時間表的現實一起食用,這像極了某個明星項目泡沫被戳破,局中人各自打算的熟悉戲碼。

而最近 AI 視頻的競賽,也開始呈現出一些白熱化。

據 SimilarWeb 統計,位居全球前列的 AI 視頻生成企業 Luma AI 網站在 9 月的總訪問量僅爲 1181 萬次,環比下跌 38.49%。紅極一時的 Pika 也在 9 月總訪問量出現跌落。雖然其在 10 月新版本中憑藉一批新的模版效果再次爆火,但產品如何持續的吸引用戶興趣的問題也逐漸浮出水面。

一些最初對 Sora 持謹慎態度的聲音現在再度被拿出來重新咀嚼,比如電影製作人帕特里克·塞德伯格(Patrick Cederberg)在 4 月所說,他必須讓模型生成數百個短片,才能找到一個可用的短片。換句話說,Sora 的使用非常困難。

所幸的是,Tim Brooks 並沒有告別 AI 視頻,他大概率加入了 DeepMind 的 AI 視頻生成工具 Veo。Sora 的起落或許不是 AI 視頻行業的唯一標尺,至少在能力上,開始有 Meta Movie Gen 這樣的挑戰者開始宣稱幹掉了 Sora。而國內的 AI 視頻產品生態,也一直在有新的變化。

AI 視頻賽道的降溫,換句話說,也是下一批更好產品迭代出來之前的醞釀期。而最近似乎有了一個足夠驚豔的產品走入大衆視野。

這個視頻的「始作俑者」,是愛詩科技幾天前發佈的 PixVerse V3。隨着 PixVerse V3 的發佈,不僅在模型方面再次驚豔行業,而且在 toC 落地方面也開始「破圈」。

01

PixVerse V3 真把次元壁打破了

在市面上的 AI 視頻產品已經充實到讓人開始「視覺疲勞」情況下,PixVerse V3 真的足夠特別?

如果你抱着類似的疑惑,那這隻皮卡丘的出現就足夠打消大半。

除了那些無法被複現的發佈會演示作品,這大概是 AI 視頻生成中二次元形象和真實世界第一次能夠如此和諧的進行互動。

畫面裡,這隻皮卡丘的形象與我們印象中卡通片中的樣子別無二致,但它卻出現在一條真實的繁忙街道上,然後就這麼水靈靈的跳到了一個小哥懷裡。

這是這段視頻所需要的 Prompt:

1934 年,米高梅出品的《Hollywood Party》裡吉米·杜蘭特用手指」叼着「米老鼠的動作,成爲世界影史中卡通與真實影像結合的第一個經典畫面。 90 年後,這個充滿巧思但在實現上卻異常繁瑣的效果終於可以用 AI 來代爲效勞。

離譜的是,皮卡丘是 AI 做的,皮卡丘所在的真實世界也是 AI 做的。從效果看,PixVerse V3 對於動畫進入現實世界這件事,理解的相當絲滑。

不止是皮卡丘,你還可以用用下面這段看起來要素過多的 Prompt,來生成一個馬里奧大叔進火車站的視頻:

畫面裡有着鮮明的主角馬里奧,背後熙熙攘攘的人羣每個人都有各自不同的動作細節,而在馬里奧沿着鏡頭向前走的同時,動畫人物與真實環境相交的邊緣處理的也非常清晰乾淨,與此同時,火車也進站了。

如果卡通人物已經滿足不了你的胃口了,那我們來看看 PixVerse V3 在大場面上的發揮。

——關鍵詞:巨龍入睡。

完整的 Prompt 是這樣的:

雖然視頻中仍然缺乏 Prompt 中提到的一些細節,但總體上無論是從運鏡的連貫程度,還是用陰鬱的影調來微妙的表現畫面張力的能力,以及對遠景的怪獸、前景的廢棄汽車的刻畫,PixVerse V3 的視頻生成能力都已經開始逼近電影級的畫面質感。

除了文生視頻,此次 PixVerse V3 也展現了優秀的圖生視頻能力。

圖生視頻的想象力可就大了,你可以試試找一張帥氣的美國西部電影海報,加一段 Prompt,讓他做一些「離譜」的事——比如碰到了一把質量不太好的左輪槍:

Prompt 是這樣的:

完整的 Prompt 是這樣的:

PixVerse V3 在文生視頻和圖生視頻能力上給人最鮮明的感受,就是它無比接近普通人日常生活中的興趣點。事實上,除了專業的視頻創作相關從業者,沒有太多人有用 AI 視頻軟件雕刻一段完美影視作品的需求。反而更多剛用上視頻生成能力的人,他們的好奇心在於這個能力能不能和真實世界甚至自己玩在一起。比如把喜歡的卡通形象引入自己每天出入的場合,甚至把自己變成鋼鐵俠之類的動漫人物。

AI 視頻產品目前遇到的困局,很多都是因爲陷在技術能力的自嗨裡,而用戶的身影消失了。在這個文生視頻技術剛剛嶄露頭角的階段,可能更大多數的普通人所中意的,首先是一個足夠靠近自己,又足夠親和的 AI 視頻產品。

從這個角度上來看,當下的 PixVerse V3 或許是那個把用戶心思猜的最準的產品。

PixVerse V3 的驚豔除了歸功於 PixVerse V3 背後 AI 視頻大模型的能力迭代之外,其在提示詞理解能力上的優化也功不可沒,相信看到上面這幾個 Prompt 示例,細心的人已經看出來了。

"主體+主體描述+運動+環境"是一個讓 AI 視頻生成時能最大可能發揮效用的 Prompt 公式,相比 V2.5,現在你可以對 PixVerse V3 增加一個「鏡頭描述」的維度。

當然,除了遵循這個公式,Prompt 需要儘可能詳細描述人物的動作,避免太過簡單的描述。

同時,PixVerse V3 在輸出視頻的選擇上也更加豐富,在輸出視頻的格式上 PixVerse V3 支持包括 16:9、9:16、3:4、4:3、1:1 在內的多種視頻比例,風格化功能也在本次版本更新後得到升級,現在文生視頻和圖生視頻兩種模式同時支持動漫、現實、粘土和 3D 四種風格選擇。

一句話來說就是,這次 PixVerse V3 不僅變強了,它甚至想要把產品說明說一行行交到你手上。

社交平臺 X 上,很多 AI 產品的關注者已經開始上手 PixVerse V3,比如粉絲衆多的 Pierrick Chevallier。他甚至整理了一個專門的帖子來展示自己用 PixVerse V3 生成的視頻。除了強大的生成能力以外,吸引人眼球的是他在其中展示了很多非常「萬聖節味兒」的視頻。

02

這個萬聖節,

讓 PixVerse V3 來「搞效果」

一個足夠有趣的 AI 視頻產品的破圈,除了要有足夠的技術能力支撐,也需要一個好的契機。說起來 PixVerse V3 的發佈也算得上恰逢其時。

11 月 1 日就是萬聖節,10 月末的此時此刻,正是年輕人一年一度的想象力巔峰期。結合萬聖節主題,PixVerse V3 一併發佈了一系列萬聖節主題模板,讓你能夠用 AI 對身邊的一切「施法」。

此次 PixVerse V3 發佈的萬聖節主題模板總共有 8 個,其中有一類主打的是「大變活人」。

比如無中生有的在城市裡變出一隻怪獸。

除了這種大場面,PixVerse V3 可以直接讓一張照片裡的的元素「活」起來,比如讓《我在雨中等你》中的那隻小狗從照片裡真實的走出來:

小狗起身前甚至還有個擡頭的自然動作。而從照片裡走出後,原來的照片只留下一片平靜的草坪,整個效果還是挺驚豔的。

這個模版也有更打開想象力的玩法。比如,能不能讓達芬奇筆下的維特魯威人從那個框住他的圈裡走出來?

類似這樣:

萬聖節能拿出這麼一個節目也足夠驚豔全場了。

這次 PixVerse V3 爲萬聖節準備的第二類模版,走的是抽象路線。

比如讓一個鐵盒站起來逃跑:

或者把一輛保時捷打散,變成一堆積木:

當然,這次 PixVerse V3 的模版中也有很多更有萬聖節味兒的效果可以玩,比如給人物照帶上一頂巫師帽,然後動起來,就像這樣:

這些萬聖節模版包含在 PixVerse V3 全新上線的 Effect 功能中。使用起來很簡單,上傳圖片後,選擇你想要的效果點擊即可進行生成,這中間不需要再費心思輸入 Prompt 了,對一門心思都想着萬聖節的人來說非常友好。

而此次 PixVerse V3 顯示了更強的多模態生成能力,在本身文生視頻以及圖生視頻的基礎上,PixVerse V3 現在可以讓生成的視頻帶上用戶想要的聲音內容,並且如果原本的視頻長度不夠長,PixVerse V3 現在有能力對原視頻進行進一步的延續創作。

這些多模態生成能力也變成了與 Effect 一同在 PixVerse V3 首發的兩個新功能。第一個功能是能爲視頻生成多語言人物聲音同步的對口型功能 Lipsync。

Lipsync 功能允許用戶在生成的視頻基礎上,自己輸入輸入文案或上傳音頻文件,然後 PixVerse 會自動根據文案或音頻文件內容,對視頻中的人物口型進行適配。目前 Lipsync 能夠支撐 30 秒的視頻長度,可以對口型的語言已經包括了英語,漢語,法語,日語四種。

另一個功能是視頻延長 Extend,或者可以理解爲故事續寫。

針對現在生成視頻長度過短的問題,在 PixVerse V3 中用戶可以選擇已經生成的視頻,點擊「Extend」按鈕,輸入與視頻如何進一步發展相關的提示詞,點擊「create」,原視頻就會照着擬定的方向實現情節遞進,同時保持人物和動作高度連貫一致。

多模態視頻生成能力的加入,PixVerse V3 現在能夠生成敘事量更大、視聽效果更佳的 AI 視頻,AI 視頻創作的邊界也進一步被拓寬。

做一個真正能玩起來的 AI 視頻產品

「當普通用戶也能用起來時,纔是 ChatGPT 時刻。」愛詩科技創始人兼 CEO 王長虎在今年 4 月的一次採訪中說道。

過去兩年,大模型技術透出的每一絲新的微光都會轉變成一場場關於生產方式新的宏大敘事,彷彿人類的生活會在短時間內被完全顛覆。但到目前爲止,這一切還並沒有發生。

與此同時,Sora 帶來的興奮以及過於宏大的技術想象力讓整個 ai 視頻產品領域逐漸失焦,找不到與大衆生活的連接處。所以一方面 runway 這種定位是專業工具的 AI 視頻產品由於過高的使用門檻而難以破圈,而定位更偏大衆的產品則陷入一種在衆人嚐鮮後的「閱後即焚」困境,用戶在新鮮勁過了之後難以留存,產品缺乏明確而具體的發展思路,於是只好向着「濾鏡化」「特效化」的簡單邏輯下沉。

換句話說,AI 生成能力巨大的的開放性讓 AI 視頻這個領域目前幾乎所有產品都像是某種半成品,生成內容的隨機性和不可控被包裝成一種新奇體驗,也同時意味着其難以在一種具體而具有持續性的場景中被使用起來。

就像當外界被 Sora 氣球人的生成能力所驚豔的時候,帕特里克·塞德伯格則被 Sora 內容生成一致性的缺乏所困擾,他抱怨氣球的顏色在每次生成中都會改變,而這樣的瑕疵意味着大量後期製作的工作量仍然不可避免。類似的問題很多,這也是爲什麼雖然好萊塢一年前已經開始爲大模型對電影工業潛在的顛覆可能罷工,但一年後,sora 仍然無法真正進入影視的工作流。

眼下 AI 視頻產品也都或多或少的陷入了類似的處境——雖然 AI 視頻生成能力已經讓所有人興奮了很長一段時間,但 AI 視頻生成產品仍然是一場看起來很美的「賣家秀」。

在新的技術洪流面前,一個產品要保持「具體」很難。但愛詩科技從最初的 PixVerse 網頁版到現在 PixVerse V3 傳遞出來的卻是一條難得的清晰有序的迭代路徑。

今年 1 月,愛詩科技正式發佈了文生視頻產品 PixVerse 網頁版。但當時包括 PixVerse 在內,幾乎所有的文生視頻產品都會遇到的問題是生成形象的不可控,這意味着用戶無法持續性的圍繞統一角色來生成視頻內容。3 個月後,PixVerse 網頁版搭載了基於自研視頻大模型開發的 C2V(Character to Video)功能,通過精確提取人物特徵來鎖定角色,初步解決 AI 視頻創作中的一致性難題。

把視頻中的「角色」固定下來之後,PixVerse 把之後的迭代重心放在了生成內容中行爲的「可控」上。今年 6 月,愛詩科技發佈 Magic Brush 運動筆刷,用戶可以通過對視頻畫面中內元素簡單的塗塗抹抹,來精確控制各個元素的運動及運動方向。7 月末 PixVerse V2 上線,產品中除了展現了足夠多對生成內容的控制能力,Prompt 難度也又了大幅下降,同時微調生成效果的手段則趨於豐富。

這又是一次意圖非常明確的迭代——「具體產品形態需要去試,但最終我們還是希望服務廣大普通用戶」,就像王長虎在此前一次採訪中所說。

在視頻生成能力還不能直接滿足普通用戶的需求時,服務專業創作者,基於新的內容生成範式去做下一代的工具是更優先的選擇。「當生產要素被技術囊括後——比如 AI 把拍攝時的演員、場景、攝像機取代了——這時候 AI 視頻生成能力就可以開始爲大衆所用,用戶的圈層會逐漸擴大,就會產生巨大的機會。」

此次 PixVerse 3V 開始嘗試推出更多與普通人生活相關聯的玩法,並且嘗試用 Prompt 來設定鏡頭,後者可以被看作是一種部分代替攝像機的嘗試。如此看來,愛詩科技對產品方向的打磨一直在一條很篤定的道路上。

在 AI 視頻生成這場以發散性爲美的技術浪潮中,愛詩科技的選擇是與整體的流勢相反,遠離宏大敘事,給出一個 AI 視頻產品可以怎麼玩的,最具體的方案。

只有儘可能的讓人拿在手裡玩起來,AI 視頻應用纔會從 Sora 所引領的一場「賣家秀」,過渡到生機盎然的「買家秀」。

PixVerse V3 的驚豔登場,或許就是這場 AI 視頻「降溫」背後,另一場積極變化的開始。

*頭圖來源:PixVerse V3

本文爲極客公園原創文章,轉載請聯繫極客君微信 geekparkGO

極客一問

你認爲 AI 生成的視頻可以有哪些玩法?

周受資:TikTok 主流內容充滿快樂,而不是挑釁的爭議話題。

點贊關注極客公園視頻號,