火山語音:超寫實數字人小燦進軍職場,AI技術再創新可能

(原標題:火山語音:超寫實數字人小燦進軍職場,AI技術再創新可能)

ail=660x2147483647&quality=80&type=jpg" alt="" src="https://crawl.ws.126.net/nbot2/img/4c4a2453ba0056109617abcffca86ea4" style="max-width: 600px;" />

10月18日,火山語音首個超寫實數字員工小燦正式亮相。在最新發布的品牌TVC中,小燦以虛擬產品經理的身份入職火山語音團隊。初入職場的小燦就像普通新人一樣,也會爲自己能否順利入職而糾結,更會在入職第一天整裝待發,對美好的實習生活充滿期待。TVC中,她陽光可愛,與同事們穿梭在日常職場中絲毫不顯違和,會因開會而緊張,更希望被大家認可並看重自我成長,在短短的一分鐘故事短片內,展示了虛擬數字人豐富的情感世界,直觀近如眼前。

據瞭解,小燦由火山語音聯合朝夕光年江南團隊共同打造,其形象融合了藝術美感。無論從數字人的外形與動作出發,還是細緻到面部微表情、皮膚肌理,甚至是髮絲材質上都做到了高度逼真。伴隨小燦的發佈,火山語音團隊已經具備3D超寫實數字人整套形象設計、資產製作、高成本影視級cg管線視頻內容的製作能力。

從外在的製作能力深入到內在的數字人AI驅動角度,火山語音團隊具備豐富且領先的技術儲備,例如AI驅動口型方向,團隊通過使用行業領先的非自迴歸模型的脣形生成網絡,合成與輸入文本或語音完全匹配的脣形,準確率高達98.55%。

AI驅動動作層面,團隊基於創新的Motion Blening技術,在動作切換時可生成過度幀,使得數字人在切換各類動作時不僅可以做到毫秒級切換,同時平滑效果自然無感知;除此之外還在AI表情口型聯合建模,基於語音語義的動作生成即co speech技術上,都有具有前瞻性的預研工作並已取得階段性成果,後續將全部應用於數字人視頻創作、交互以及直播等場景。

值得一提的是,本次發佈的超寫實數字人還具備“一條音頻秒級別音色復刻”技術(zero shot TTS),可以做到高保真還原真人音色、說話風格以及聲學環境等特點,在覈心技術架構全自研的基礎上,關鍵指標均保持業界前沿。此外韻律模塊基於自迴歸GPT類大模型,目前訓練數據超過20萬個小時,架構可擴展性很強,未來預計可支持100萬小時以上數據訓練;模塊支持code-switch,即無論prompt爲中文或者英文,都可支持直接輸出中文、英文及混合內容。

如今火山語音團隊已建立了包括2D、3D卡通和3D超寫實在內的虛擬數字人產品矩陣,涵蓋“播報型數字人”和“交互型數字人”兩種類型,其中播報型數字人,即輸入文本或語音,就可生成自然生動的數字人播報視頻;交互數字人作爲播報型數字人的形態升級,依託於火山語音長期積累的成熟語音交互技術,可以做到“善聽”、“會說”、“能想”,與用戶面對面實時交互。“交互數字人集成了全雙工語音交互鏈路,前向兼容語音以及文本輸入,後向兼容2D與3D數字人表現力,整體端到端交互延遲在500ms左右,性能效果超前。”團隊總結道。

2022年6月,火山引擎虛擬人數字平臺已獲得信通院首批數字人系統基礎能力認證。在“實時高逼真孿生數字人關鍵技術研發與應用示範”項目建設中,火山語音團隊憑藉業內優勢的AI語音技術以及全棧語音產品解決方案能力,參與到該項目課題三“實時高保真孿生數字人通用開發平臺”的建設中,並與江南遊戲工作室合作,通過整合交互理解、智能對話管理、智能驅動三大模塊,構建支持定製化並適用於多樣場景的數字人智能“對話”系統,實現多模態交互對話。

一直以來,火山語音技術支持下的虛擬數字人專注播報、交互、直播三大核心領域,通過火山引擎面向金融、汽車、傳媒等多個核心行業,提供涵蓋“金融客服”、“智慧導覽”、“智能助理”、“虛擬直播”等場景細分解決方案,並可落地在內容生產、視頻直播、車載環境等諸多場景中,爲用戶帶來全新的互動服務和專業智能體驗。