騰訊進軍文生視頻賽道,但大規模商業化還需要時間

繼快手可靈、字節即夢之後,騰訊混元大模型也在12月3日宣佈上線文生視頻(text-to-video)能力。目前,C端用戶可通過騰訊元寶APP申請試用,企業客戶通過騰訊雲提供服務接入,API同步開放內測申請。

文生視頻是騰訊混元大模型繼文生文、文生圖、3D生成之後的又一次業務拓展嘗試。與多數廠商不同的是,騰訊選擇開源該視頻生成模型,其參數量達到130億,也是當前最大的視頻開源模型。

這一新功能的操作界面並不複雜。用戶只需要輸入一段描述,即可生成一段5秒時長的視頻,目前支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。

目前主流平臺支持的免費文生視頻體驗多在5~6秒之間。騰訊混元的多模態生成技術負責人凱撒表示,視頻時長並非技術挑戰,而是算力和數據挑戰。因爲每當時長擴長一倍,算力也將呈平方級上升,在成本上並不划算。大部分影視劇或剪輯作品都是不同鏡頭的拼接,因此第一版將優先滿足基本需求,如果未來有更強烈的長時間鏡頭需求,再做升級。

凱撒介紹,混元視頻生成模型基於與Sora類似的DiT架構,並在架構設計上進行了多處升級,包括適配了新一代文本編碼器提升語義遵循,能夠更好地應對多個主體描繪。此外,它的一個代表性特色是,能夠實現在畫面主角保持不變的情況下自動切鏡頭,這是目前業界大部分模型所不具備的能力。

2024年2月,OpenAI發佈的文生視頻大模型Sora點燃了文生視頻賽道。不過, Sora目前並未對普通用戶開放,而是僅將測試資格開放給了視覺藝術家、設計師和電影製作人。一種解釋是,考慮到今年的美國大選,OpenAI希望竭力避免安全風險,希望在大選之後再全面對外開放。

而在Sora尚未徹底“亮活”之前,中國廠商已經表現得頗爲積極。快手可靈、字節即夢、Minimax旗下海螺AI、阿里巴巴通義萬相等都是文生視頻領域的代表產品,其中不少已經開始進軍海外,並且推出了較爲完備的會員付費體系,快速進行商業化變現。

考慮到算力及數據成本之高,商業化同時是所有相關產品難以避免的話題。騰訊同樣爲混元設計了商業化路徑。由於混元視頻生成模型具有高畫質優勢,可用於工業級商業場景例如廣告宣傳、動畫製作、創意視頻生成等場景。

但由於技術尚未足夠成熟,目前市面上的文生視頻模型仍然存在一些缺陷。例如生成視頻在畫質、細節、真實感等方面仍與真實視頻存在差距,且用戶對視頻生成過程的控制能力有限,只能通過修改文本提示來間接影響視頻生成效果,而文本與視頻的語義匹配度不足,也會導致生成效果不及用戶預期。

“我們確實看到很多產品和模型有先發優勢,但自己做的時候卻發現,現在視頻生成、尤其是是文生視頻領域成熟度遠沒有大家想象的那麼高。失敗率很高,抽卡太多了。”凱撒表示。“抽卡”指的是文生視頻效果不穩定,用戶需要多次嘗試才能得到符合自己期望的滿意畫面,就像抽獎一樣碰運氣。

這也是騰訊並不急於商業化的原因。凱撒認爲,文生視頻技術還沒有到大規模商業化的程度,仍在技術打磨階段。因此,騰訊決定在這一階段推出文生視頻模型並將其開源,讓更多開發者來使用並基於騰訊混元系列打造應用及服務,也只有更多人來使用,才能更快地將技術推向成熟。