☰

谷歌新技術可用AI模型爲無聲視頻配音

谷歌DeepMind 近日公佈了一項利用 AI 爲無聲視頻生成背景音樂的“video-to-audio”技術。

當前 DeepMind 這款 AI 模型依然存在侷限性，需要開發者使用提示詞爲模型預先“介紹”視頻可能的聲音，暫時不能直接根據視頻畫面添加具體音效。

據悉，該模型首先會將用戶輸入的視頻進行拆解，此後結合用戶的用戶文字提示，利用擴散模型反覆運算，最終以生成與視頻畫面協調的背景聲音，例如輸入一條“在黑暗中行走”的無聲視頻，再添加“電影、恐怖片、音樂、緊張、混凝土上的腳步聲”等文字提示，相關模型就能生成恐怖風格的背景音效。

DeepMind 同時表示，該“video-to-audio”模型可以爲任何視頻生成無限數量的音軌，還能夠通過提示詞內容判斷生成的音頻“正向性”或“反向性”，從而令生成的聲音更貼近某些特定場景。

相關資訊