喜馬拉雅IPO:用AI爲創作者賦能的同時構建龐大內容生態

喜馬拉雅公佈過一則數據,其用單田芳AI合成音製作的TTS(語音合成)專輯總播放量已經破億。這一數據,喻示着在喜馬拉雅“UGC+PGC+PUGC”內容生態之外,又多了一個AIGC的內容生態。

事實上,音頻行業其實一直存在着許多問題,比如單個創作者創作形式單一、生產週期長、內容成本高等等。而爲了突破這些問題,音頻行業一直也都在做各種嘗試。比如,喜馬拉雅最近上線了喜韻音坊創作者平臺,試圖用AI爲創作者賦能的方式,以技術手段來解決行業沉痾。恰好也是今年,喜馬拉雅的兩項智能語音技術相關論文被2022年國際音頻、語音與信號處理會議(ICASSP)收錄。

喜馬拉雅創始人兼CEO餘建軍之前也提過,喜馬拉雅是一家科技驅動的內容公司,科技是手段,文化是目的。那麼,在這次喜馬拉雅以通過科技賦能文化的過程中,又是如何改變音頻行業的呢?配音小說用AI工具一天更新上百集“以前從來沒有想過,音頻節目可以一天更新上百集。”這是喜馬拉雅的音頻主播“CV千索”用過喜韻音坊之後的感嘆。

喜韻音坊是喜馬拉雅上的一個創作者平臺,它通過TTS技術幫助主播實現與AI共同創作音頻節目。“CV千索”就是通過這項技術在喜馬拉雅上創作了有聲書《史上最強撿漏王》,上線一個多月,播放量已經超過300萬。工欲善其事必先利其器,創作者有了AI工具,就可以大幅提升創作效率,進而提升收益。

但要打造一個好工具也並非易事,喜韻音坊對於喜馬拉雅來說,就如同剪映之於抖音,但音頻製作本身又有不同的技術難點。“TTS”是將輸入的文本轉換爲語音的技術統稱,在許多場景中都有應用。但在不少場景中,比如在電話客服、機器人等身上,經常會有冷冰冰的“機器音”讓人非常“齣戲”。但在音頻節目中,我們需要聲音有情緒、有溫度:聽童話故事的時候,聲音俏皮可愛;講軍旅故事的聲音,鏗鏘有力;聽歷史故事,又需要它深沉雄渾。

喜馬拉雅智能語音實驗室自主設計了單獨的韻律提取模塊,並將其融入到HiTTS技術框架中。而針對單老評書中區別於標準普通話的發音,團隊還設計了口音模塊對這些特殊發音進行標註,使得AI合成音能夠原汁原味地還原出老味道。由於技術上的創新,喜馬拉雅用TTS合成語音所製作的AIGC專輯幾乎能夠以假亂真。

如今,喜馬拉雅多情感、多風格、多語種聲音的TTS技術模型已經廣泛被運用於評書、新聞、小說、財經等多種類型AIGC內容的製作中。