☰

AI視頻時代，如何才能不掉隊？

圖源｜AI生成

讓你反覆點贊收藏的短視頻，或許已經不是人類做的了。

不久前，一段“皮卡丘打工”的AI視頻，在全網流傳爆火。精美的畫面，流暢的動作，以及絲滑的雨滴，幾乎可以與大製作的動畫電影相媲美。

更久之前，今年抖音上爆火的科幻短劇《三星堆：未來啓示錄》，同樣是由AIGC生成。這部劇12集，每集3分鐘，講述考古工作者聯手揭開古蜀國神秘面紗的故事，一經上線，就引發1.4億播放。其背後的技術支持字節旗下視頻生成工具即夢，也隨之引發市場關注。

技術的普及與工具的成熟，讓視頻創作門檻快速降低，在AI的助推下，用戶從單純的內容消費者升級爲生產、消費和擁有的三位一體，視頻的總量也隨之爆炸性增長：當前，視頻數據的規模飛速增長，IDC預計，2025年全球數據量將達到175ZB，其中絕大部分將來自視頻數據，而這一趨勢，還將繼續加速。

但AI視頻時代，主角不止有AI。同一時期，在消費端，隨着全景直播、三維重建的成熟，伴隨着國產3A大作《黑神話：悟空》中AI技術結合無人機實景三維重建實現真實場景的紋理與細節以1:1的比例精準還原，視頻的交互與消費鏈路也從此被重構。

技術的成熟，疊加應用的爆發，AI視頻的戰爭，正迎來市場化爲導向的下半場。

AI視頻時代的三座大山

以AI技術爲爲表，一個新的視頻生產、交互、消費時代正在緩緩拉開序幕，但近在眼前，仍有三座大山有待翻過。

與大家發佈會上殺得你死我活形成鮮明對比的是，具體的場景之中，真正好用的產品並不多見。

兩者中間的鴻溝，來自工程化。一個簡單的例子，僅在AI視頻生成環節，業內發佈會上，AI生成的視頻中，小貓會正常跳躍，展示出的技術水平就已經遙遙領先；但現實中，一個會正常跳躍的小貓，只是最基礎的要求，視頻本身的內容與趣味的重要性，遠遠高於對AI技術的追求。

更具體來說，在生產端，成本與效率，正逐漸成爲一個越來越棘手的難題。

一方面AI視頻生產的賽道正隨之變得前所未有的擁擠。Sora發佈引發全球視頻大模型熱潮，AI視頻的賽道也在很快的時間裡變得擁擠。僅僅在國內，就先後出現了字節系即夢、快手系可靈，創業公司系Pika、智譜清影、生數科技Vidu等一衆明星產品。

然而，生成式AI帶來的視頻數據指數級增長對計算效能提出了嚴峻考驗；年初推出的Sora模型的訓練算力需求是GPT-4的4.5倍，而推理算力需求更是接近GPT-4的400倍。無論文生視頻，還是圖生視頻，相關的算力指標動輒幾十上百T，甚至高達千T，這種激增的成本，帶來了算力資源的可負擔性的挑戰。

與此同時，多模態媒體處理挑戰也日益凸顯。多模態媒體處理需求的日益凸顯對音視頻處理的生產端、交互端和消費端提出了全新要求；生產端，多模態內容的生產是否足夠高質高效，比如給用戶交付的究竟是模型、API還是一個類似即夢這樣的軟件都對應着不同的用戶分層；交互端，當我們的交互從傳統的單模態人機變成多模態交互乃至人與AI的交互，如何讓機器更直觀的理解人類的需求，依舊是個困擾，消費端，如何讓交互空間從2D升級到3D乃至虛實融合，也對內容的創作以及呈現本身提出了更高要求。

同時，如何讓技術應用真正落地並帶來實際業務價值也是我們必須面對的問題。AI視頻很火，但成本同樣不低，如何讓內容生產出來之後能帶來確定的收益，會決定AI視頻長久的生命力。

單點的問題解決，需要編解碼技術的更新，需要有應對洪峰波谷的能力，需要AI的加持。但系統性問題，需要的，則是一個所有能力的融會貫通，從生產端，到交互端，再到消費端的全鏈路解決方案。

而這，或許正是火山引擎視頻雲最擅長的地方。過去Sora等技術的成熟只是點燃了0到1的火種，但AI視頻真正的爆發，還需要從1到100漫長的累積。

如何定義AI視頻時代

AI視頻時代的到來理所當然，但如何定義AI視頻時代，這曾是火山引擎視頻雲內部，一個長期的思考題。

通往未來的門票，就藏在對過去歷史的梳理中。

經過覆盤總結，火山引擎視頻雲認爲，圍繞視頻，我們的時代，可以被分爲三個階段：

第一階段，信息時代。以傳統的UGC短視頻內容爲代表，我們中的大部分都是內容的消費者，我們與視頻的交互，以手機屏幕的2D體驗爲代表，是一個在線、雙向的過程；

第二階段，到了數字時代，我們對視頻品質的要求越來越高，PGC成爲內容生產的主流，直播興起帶來交互上的實時、流暢、高清，而交互的空間，也從二維逐漸向三維空間過渡。

這是一個生產側內容的品質不斷提升，交互側效率不斷提升，消費端交互體驗與空間不斷升維的過程。

相應的，AI視頻時代，自然也不等同於傳統的數字視頻時代加上AI能力，故事依舊要回到生產、交互、消費的敘事中來。

首先是生產端。AI的加持，抹平了視頻製作水平差距帶來的鴻溝，AI輔助視頻製作，逐漸成爲各大軟件，人人可用、人人會用的基礎技能。我們不再侷限於主動的內容生產與被動的內容消費，在AI視頻時代，用戶將成爲AI原生居民，既是內容的生產者，也是消費者，更是擁有者。在這背後，則是AI技術從過去的問答，到圖文交互，再到如今多模態交互，多模態內容生產的一步步跨越。

而在交互端，技術的成熟，則進一步拉近了人與視頻，真實世界與數字之間的連接。過去，留言的存在，讓人人交互成爲可能；直播等技術的興起，通過互聯網的鏈接，讓人與人的實時交互得以實現。而以GPT-4o、火山引擎對話式AI實時交互解決方案等技術爲代表，人與AI的交互，則在多模態的基礎上，變得更加實時流暢、逼真與擬人。全球市場研究機構MarketsandMarkets曾做出預測，到2028年，全球AI助手市場規模將達到285億美元。在這背後，2023—2028年的複合增長率將達到驚人的43%。

消費端的這個趨勢是更沉浸。以年初蘋果發佈的Vision Pro爲代表，空間計算的新時代正式開啓。在此之後，今年7月，抖音VR直播上線，9月《黑神話：悟空》以其極具震撼力的視頻畫面質感、跌宕起伏的劇情架構和深厚的文化底蘊，迅速吸引了全球玩家的目光。3D、虛實融合與VR技術，將成爲消費端變革的主力軍，架起數字世界與物理世界之間的橋樑。

方向已經確認，一個新的時代就在眼前呼嘯而來，接下來，火山引擎視頻雲的重點工作，就是去梳理在這次史無前例的市場爆發中，究竟還有多少痛點沒有被解決，而火山引擎，手裡又還有多少張牌。

爲什麼是火山引擎視頻雲

當確定了未來的大趨勢，與眼前的具體困境後，接下來的故事就進入了火山引擎視頻雲最擅長的劇情，從生產到交互再到用戶體驗的全方位重構。

而這一切的基礎，則是框架層的創新。AI視頻時代，超大規模視頻訓練數據集，導致了計算和處理成本激增；而伴隨着視頻數據質量參差不齊，數據樣本的分類、分段和清洗也帶來了龐大的工作量；整體處理鏈路涉及多個環節，工程複雜，需要多團隊協作。相應地，對於視頻雲來說，框架不僅需要支持大模型的高效運行，還要能夠滿足日益複雜的音視頻處理需求，以應對生成式AI時代帶來的挑戰。

爲此，火山引擎聯合英特爾共同發佈了BMF大模型訓練視頻預處理方案並升級了大模型與AI能力。

BMF在本次大會上，推出了不依賴任何第三方組件的輕量化開源版本BMF-lite。通過kernel融合等創新方案，BMF-lite實現了算子加速能力，大幅提升了視頻處理的效率。在通用性上，BMF-lite則提供了多平臺統一的接口形式，讓所有開發者都能輕鬆使用BMF-lite。而隨着視頻處理越來越從雲上向端側遷移，BMF-lite還新增了對端側大模型的接入支持，爲AI技術的融合提供了強大的支持。當前BMF-lite已經廣泛地應用在了抖音的各個業務上，每天服務於上億用戶，處理視頻圖片萬億次。

此外，應對成本挑戰，火山引擎通過海量的潮汐資源和精細化的混部調度來降低單用戶的平均使用成本；而爲了應對質量挑戰，火山引擎視頻雲使用多種算法對視頻進行多維度的分析和篩選，在實踐中沉澱了50多個算子對視頻進行了精細化的過濾；對於協同挑戰，火山引擎視頻雲利用BMF的動態模塊的特性，在短時間內完成了幾十個算子的集成和處理鏈路的開發，迭代效率相比使用傳統框架提升了數倍。應對性能挑戰，基於英特爾CPU等各種不同的資源，火山引擎視頻雲則利用BMF框架的靈活調度，將複雜的算子處理流程靈活的部署在多種資源上，並實現了快速的性能調優，提升了任務吞吐，緩解了資源瓶頸。

在這背後，則是硬件在算力側提供的穩定支持。爲了應對多元的業務需求，選擇不同的硬件來進行視頻處理以實現最佳的性價比，是幾乎所有企業都會面臨的問題。英特爾強大的至強CPU處理能力，可以爲8K視頻實時處理、包括傳統的CV視覺優化、LLM和AIGC在內的多種AI應用，各種類型業務在火山引擎上的部署，提供強大的計算支持和可靠的服務。

與此同時，爲了應對生成式AI時代，海量視頻數據，用戶高質量視頻需求，不同對象豐富場景等需求，BMF還推出了靈活高效大模型訓練視頻預處理能力，通過視頻淨化、多種算子、組合輸出、大規模部署等技術，目前已經在生產環境中，取得良好效果。

而基於這種框架層面的創新，以及反覆的內部練兵以及外部用戶需求調研，針對市場痛點，火山引擎做出了三步走計劃。

第一步，在生產端，降低視頻的生產門檻，帶動AI視頻時代，人人成爲視頻內容的消費者、生產者以及擁有者。

基於這一認知，火山引擎視頻雲推出了多模態視頻理解與生成方案，依託自研AI視頻理解技術和AIGC技術，可以做到自動化提取視頻高光和生成解說內容，讓字幕識別錯誤率降低了30%。

目前，該方案已探索針對短劇、賽事和直播電商的自動化解決方案。能夠針對長視頻進行智能拆分、高光片段提取和產出摘要描述，能夠在提高人效的同時保證內容的精準傳達。同時，結合AIGC技術生成視頻素材，創作者可以快速完成預告片的視頻生產，能夠顯著縮短製作週期並降低成本。

爲了讓內容生成更加豐富有趣，火山引擎視頻雲還落地實踐了多模態營銷素材生成方案，通過融合圖像分析、AIGC（人工智能生成內容）、大模型處理、3D物體重建等先進技術，實現了商品氛圍圖、圖文視頻、解說視頻、AIGC視頻和3D商品模型等多模態營銷素材的自動化生產。目前，這些創新服務已經支持自營電商智能氛圍圖的端到端自動化託管，並且在電商場景的核心指標上取得了顯著提升。

當然，這種生產端的升級，並不止於視頻畫面，聲音技術的升級同樣重要。火山引擎視頻雲通過採用了自研的豆包語音大模型，實現了高品質多語言聲音復刻，並利用虛擬人技術調整演講者口型，讓觀感更加自然。

而在交互端，火山引擎視頻雲則推出了對話式AI實時交互解決方案，通過火山引擎豆包大模型和視頻雲RTC技術實現了語音數據的高效採集、處理和傳輸，並在服務端，併爲用戶提供了智能對話和自然語言處理的強大能力，毫秒級人聲檢測和打斷響應，以及絲滑穩定的端到端響應體驗。當前，這一方案已經廣泛應用於智能助手、AI陪伴、AI教育、智能客服等場景，併爲用戶帶來更自然、流暢和真實的人機交互體驗。

框架的建構，解決了生產端的效率；交互的革新，帶來了產品體驗的進一步升級，AI視頻時代的未來已經初見雛形，但要讓全鏈路的升級更加完整，還差最後一步——消費端的沉浸式體驗升級。

今年以來，隨着《黑神話：悟空》爆火，帶動3D生成和場景重建技術興起，火山引擎視頻雲推出了基於AI的3D生成方案，藉助大模型強大的生成能力，採用基於圖生3D的模式來完成3D內容的快速構建。同時，火山引擎視頻雲還上線了高質量3D Gaussian-Splatting場景重建及低延遲重渲染方案，用於對場景進行高質量的幾何、外觀重建和渲染，並實現行業內首個高斯方案支持複雜的實時重打光及陰影渲染。目前，該技術已經實際應用在虛擬直播等VR/AR/XR應用中，相比傳統的手工3D建模,在效率、多樣性和操作成本等方面具備明顯優勢。

一定程度上，AI視頻時代，技術只是引爆一切的起點，但真正的商業化，則需要以用戶的體驗爲核心，從框架到場景，從生產到交互再到消費端的全方位發力，市場也隨之進入馬拉松長跑階段。

火山引擎視頻雲，爲這場長跑的下半場，做了一次不錯的探索。

本內容爲作者獨立觀點，不代表虎嗅立場。未經允許不得轉載，授權事宜請聯繫 hezuo@huxiu.com

AI視頻時代，如何才能不掉隊？

相關資訊