搜狗發佈全球首個手語AI合成主播,“黑科技”造福聽障人士

5月17日,搜狐科技5G & AI峰會在北京舉行,搜狗CEO王小川應邀出席發表主題演講。活動中,王小川正式發佈最新一代搜狗AI合成主播——全球首個手語AI合成主播“小聰”,基於搜狗領先人工智能和AI分身技術,以“黑科技”的力量幫助聽障人士更好融入社會,更好享受數字生活

技術突破解決聽障難題

根據世界衛生組織發佈的數據,全球聽力障礙人羣高達4.66億,在我國則有2700萬人。因無法常態化、高質量地接受資訊信息,很多聽障人士難以融入社會,最終成爲被遺忘和邊緣化羣體

目前,在以電腦手機載體的各類新聞資訊文娛節目中,引入手語協助的少之又少。即使有能力電視節目提供手語解說時,也多以正常語序編排,很少照顧到手語的特殊表達結構,造成絕大部分聽障者只能理解不足60% 的內容。因此,通過技術創新實現聽障人士真正可懂的手語播報能力,對於幫助聽障者克服溝通障礙,更好融入社會非常有價值。

“小聰”以打造聽障人士真正可懂的通用手語播報爲目標,立足於搜狗領先的數字人技術體系——搜狗分身,集成了超寫實3D數字人建模機器翻譯、多模態數字人生成、遷移學習、實時面部動作生成及驅動等多項領先AI技術,實現了超寫實3D數字人自然可懂的手語主播能力,使機器可以基於輸入口語文本生成逼真度高、手語表達準確的3D數字人視頻內容,從而具備“超寫實的逼真數字人效果”、“高可懂度的手語表達能力”、“高接受度的手語展現效果”三大特點。

三大優勢凸顯“小聰”能力超羣

數字人效果方面,“小聰”使用了行業最領先的3D重光照掃描還原、面部肌肉驅動、表情肢體手勢捕捉技術,生產出了高度還原真人髮膚形象逼真、動作自然生動的數字人模型,數字人寫實度的大幅突破則能夠顯著提升手語播報的真實感親切感,從而提高播報用戶體驗

手語表達方面,“小聰”基於《國家通用手語詞典》,能夠實現健聽人語言與聽障者手語語言的機器翻譯能力,基於輸入的健聽人語言能夠低延遲生成高準確率的手語語言表徵,通過搜狗分身的多模態生成技術,實時預測生成對應的超寫實3D數字人驅動參數,進而快速生成數字人手語播報視頻,在測評中可懂度可以達到85%以上,能有效幫助聽障者克服理解障礙,達成信息有效傳遞。

手語展現方面,“小聰”可以完整實現手控信息及非手控信息的表達,通過機器翻譯生成手語表徵信息,覆蓋手部動作、面部表情、口動脣動等多個維度,並基於搜狗多模態端到端生成模型進行聯合建模及預測,生成高準確率的動作、表情、脣動等序列,從而達成自然、地道、接受度更高的手語表達效果。

在此過程中,“小聰”還運用了業內領先的搜狗SLMT(Sign Langure Machine Translation)技術,在輸出符合聽障人士習慣自然手語的基礎上,進一步提高了手語的可懂度、豐富和逼真了AI合成主播的表情與脣動能力,除了可以解決聽障人士在日常生活、公共服務、特殊教育等多個場景下的信息不暢問題,還可以快速生成、批量複製,全年無休、隨時隨地提供服務。

賦能於人彰顯社會責任

作爲AI合成主播的開創者,搜狗分身一直是行業發展風向標,也始終站在業內最前沿,而搜狗分身之所以能夠“引領”行業,得益於搜狗高度的社會責任感,以及搜狗AI“賦能於人”的發展理念

自2018年發佈全球首個AI合成主播至今,搜狗分身始終在堅定踐行“以人爲本,爲人賦能”,而“小聰”的誕生,既是搜狗分身技術的再一次迭代突破,又是搜狗聚焦更加需要幫助的聽障特殊人羣,將“以人爲本,賦能於人”貫徹得更加徹底、更有溫度的體現,同時也充分彰顯了搜狗的社會責任感和企業擔當。

作爲全球首個手語AI合成主播,“小聰”能夠幫助廣大聽障人士更好地接收資訊、更好地生活,更好地“看”世界,而從更高維度來看,它的廣泛運用不僅可以造福國內聽障人士,甚至可以走出國門、造福全球,彰顯中國“智”力。