☰

騰訊進軍文生視頻賽道，但大規模商業化還需要時間

繼快手可靈、字節即夢之後，騰訊混元大模型也在12月3日宣佈上線文生視頻（text-to-video）能力。目前，C端用戶可通過騰訊元寶APP申請試用，企業客戶通過騰訊雲提供服務接入，API同步開放內測申請。

文生視頻是騰訊混元大模型繼文生文、文生圖、3D生成之後的又一次業務拓展嘗試。與多數廠商不同的是，騰訊選擇開源該視頻生成模型，其參數量達到130億，也是當前最大的視頻開源模型。

這一新功能的操作界面並不複雜。用戶只需要輸入一段描述，即可生成一段5秒時長的視頻，目前支持中英文雙語輸入、多種視頻尺寸以及多種視頻清晰度。

目前主流平臺支持的免費文生視頻體驗多在5～6秒之間。騰訊混元的多模態生成技術負責人凱撒表示，視頻時長並非技術挑戰，而是算力和數據挑戰。因爲每當時長擴長一倍，算力也將呈平方級上升，在成本上並不划算。大部分影視劇或剪輯作品都是不同鏡頭的拼接，因此第一版將優先滿足基本需求，如果未來有更強烈的長時間鏡頭需求，再做升級。

凱撒介紹，混元視頻生成模型基於與Sora類似的DiT架構，並在架構設計上進行了多處升級，包括適配了新一代文本編碼器提升語義遵循，能夠更好地應對多個主體描繪。此外，它的一個代表性特色是，能夠實現在畫面主角保持不變的情況下自動切鏡頭，這是目前業界大部分模型所不具備的能力。

2024年2月，OpenAI發佈的文生視頻大模型Sora點燃了文生視頻賽道。不過， Sora目前並未對普通用戶開放，而是僅將測試資格開放給了視覺藝術家、設計師和電影製作人。一種解釋是，考慮到今年的美國大選，OpenAI希望竭力避免安全風險，希望在大選之後再全面對外開放。

而在Sora尚未徹底“亮活”之前，中國廠商已經表現得頗爲積極。快手可靈、字節即夢、Minimax旗下海螺AI、阿里巴巴通義萬相等都是文生視頻領域的代表產品，其中不少已經開始進軍海外，並且推出了較爲完備的會員付費體系，快速進行商業化變現。

考慮到算力及數據成本之高，商業化同時是所有相關產品難以避免的話題。騰訊同樣爲混元設計了商業化路徑。由於混元視頻生成模型具有高畫質優勢，可用於工業級商業場景例如廣告宣傳、動畫製作、創意視頻生成等場景。

但由於技術尚未足夠成熟，目前市面上的文生視頻模型仍然存在一些缺陷。例如生成視頻在畫質、細節、真實感等方面仍與真實視頻存在差距，且用戶對視頻生成過程的控制能力有限，只能通過修改文本提示來間接影響視頻生成效果，而文本與視頻的語義匹配度不足，也會導致生成效果不及用戶預期。

“我們確實看到很多產品和模型有先發優勢，但自己做的時候卻發現，現在視頻生成、尤其是是文生視頻領域成熟度遠沒有大家想象的那麼高。失敗率很高，抽卡太多了。”凱撒表示。“抽卡”指的是文生視頻效果不穩定，用戶需要多次嘗試才能得到符合自己期望的滿意畫面，就像抽獎一樣碰運氣。

這也是騰訊並不急於商業化的原因。凱撒認爲，文生視頻技術還沒有到大規模商業化的程度，仍在技術打磨階段。因此，騰訊決定在這一階段推出文生視頻模型並將其開源，讓更多開發者來使用並基於騰訊混元系列打造應用及服務，也只有更多人來使用，才能更快地將技術推向成熟。

騰訊進軍文生視頻賽道，但大規模商業化還需要時間

相關資訊