AIGC行業專題報告:從文生圖到文生視頻_技術框架與商業化

文生圖和文生視頻的底層技術框架較爲相似,主要包括GAN、自迴歸和擴散模型三大路徑,其中擴散模型(Diffusion model)爲當前主流生成模型,多個指標對比下綜合佔優,能在較爲可控的算力成本和較快的速度下生成具備多樣性、高質量的圖像:

①圖像質量:擴散模型>自迴歸模型>GAN模型。FID值(Fréchet Inception Distance score)是用於評估模型生成的圖像質量的指標,是用來計算真實圖像與生成圖像的特徵向量間距離的一種度量。

FID值越小,可以認爲圖像質量在一定程度上越優。從不同模型的FID得分來看,擴散模型平均數較小,反應圖像質量較高。

②參數量:自迴歸模型>擴散模型>GAN模型。GAN的參數量一般在千萬級別,整體較爲輕巧,擴散模型的參數量在十億級別,自迴歸模型在十億到百億級不等。

③生成速度(由快到慢):GAN模型>擴散模型>自迴歸模型。生成速度與參數量級爲負相關關係。

④訓練成本:自迴歸>擴散模型>GAN模型。由於參數量級較小,GAN模型訓練成本小且開源模型多,仍具備一定優勢。而自迴歸模型參數量級較大,整體訓練成本更高。

在單張A100GPU下,120億參數的DALL-E需要18萬小時,200億參數的 Parti更是需要超過100萬小時,擴散模型參數量在十億級別,整體訓練成本較爲適中。

來源:國海證券

若需獲取本篇完整版資源,請關注公衆號《俠說》

報告內容節選如下:

資料下載方式:公衆號《俠說》,www.guotaixia.com

AIGC智能社媒創作助手、GPT3.5/4.0體驗.....Al方案鴨:aiduck.art