圖靈機器人俞志晨:語義識別即將進入圈場景大戰

語義識別已開始圈場景,這怕是要搶了語音的紅利?

本站科技訊3月30日 在2018中國(深圳)IT領袖峰會期間,本站科技對圖靈機器人創始人兼CEO俞志晨進行了專訪。俞志晨透露,2018年語義識別領域最核心的就是圈場景,這也是圖靈機器人目前最核心的目標。此前圖靈機器人主要產品在兒童機器人市場,2018年下半年,圖靈機器人將進入更多場景。(溫泉)

以下爲訪談全文,略經編輯:

本站科技:之前提到人工智能,提語音和圖像識別比較多,爲什麼語義識別不像前兩者那麼廣爲人知?

俞志晨:圖像識別,它會更前端一些,語音很多時候是會偏後端一些,後端一些支撐的技術,包括一些後端的應用,這兩個其實是有些差別的。而且它的整個的技術的發展的節奏也不太一樣,比如說語音,包括應用語音的整個市場發展,從時間上來看,第一語音整個的模式和它的商業化這塊,其實是走得最前的,視覺主要是去年,去年的市場處於爆發期。然後語義,語義實際上還是屬於第三波的產業機會。

單從大的未來來看,語義毫無疑問它的市場覆蓋面肯定會比語音和視覺要大。

本站科技:這是爲什麼?

俞志晨:你看語音的發展契機像科大訊飛,還有包括國內出來一些語音公司,基本上都屬於大概,最早第一波2000年初就開始起來了,2000年左右科大訊飛就屬於發展的比較好的,上市,包括國外也是這樣的。之前整個人工智能行業,早期就是以語音爲主。去年、前年視覺開始爆發。

這一方面是說本身這個技術在不斷成熟,另一方面是說,有安防的這個場景來託它,這麼一個大的市場機會,就導致整個視覺這塊的市場在催化。語義現在還處於一個沉澱、積累的階段。我認爲語義的能量還遠遠沒有爆發出來,這是從目前整個市場的形態來看是這樣的。

本站科技:爲什麼它還處於沉澱和積累的階段,它爲什麼發展的程度沒有語音和視覺那麼成熟?它要解決哪幾個關鍵問題纔算比較成熟,它目前已經解決了哪幾個問題,有哪幾個問題沒有解決?

俞志晨:剛纔爲什麼說像語義將來的市場空間會更大?我認爲語義現在技術通常有兩個階段。一方面是說很多時候它會提升效率,給to B的企業來用,這個是目前不管是語音、視覺、語義都會經歷這個階段,這個過程是必不可少的。當然我認爲再往後走,整個語義整個是能夠,比如客服也好,其實它的基本技術全部是圍繞語義來做的。

客服是一大塊,它實際上像很多的智能音箱,語音識別是一部分。但是爲什麼一開始大家很關注語音,因爲語音它是一個很容易感受到的東西,你裡面所有的功能都是基於語義來做出來的東西。

但是對用戶來講,他可能以爲它是基於語音做出來的。但是實際上像智能音箱那個產品,90%的東西是在語義。但是你可能感覺這就是語音識別,就跟SIRI是一樣的,因爲人對這種,有一個詞叫定義,定義上語音的這個詞更容易帶人們腦中裡面產生一個更加直觀的印象。語義這個詞太過技術化,一般大部分的消費者其實不太容易理解語義這個詞的。你看絕大部分語音交互的產品,大部分是在語義這塊。

本站科技:所以您剛剛是解釋它將來的市場空間更大,是因爲大部分的語音交互的產品,語音交互的產品90%的工作是在語義這塊,而不是語音這塊?

俞志晨:這是必然的,從可辨性來看,語音和視覺的可辨性其實是固定的,它的價值就很明確,就是我要把語音信號轉成文字。但是它的前期的落地性會比較容易一些,因爲它目的明確,所以它的普及度更快一些。視覺也一樣,視覺這塊也是說通過人臉識別、物體識別去做一些視覺的事情,它的場景相對來講比語音複雜一些,但是也是相對來講比較明確的,就是它作爲市場是比較明確的,就是是別人,識別物體。但是語義的合併性就多了,我用語義怎麼來跟這些場景結合。相當於這種場景的結合性和延伸性,會比單純一個語音識別的模塊要大很多的。

就像是說我做手機的,其實毫無疑問,你說做手機公司整個市場價值規模更大,還是說基於移動互聯網整個這一套裡面的App市場價值更大?

本站科技:我覺得有一個比喻可能更能翻譯您的這個意思,是不是就是有一千個讀者,就有一千個哈姆雷特,你一段文字在那,有一千個人理解的是不同的意思,他反饋出來的行爲也是完全不同的,是這個意思吧?

俞志晨:你也可以這麼來去理解,因爲語義實際上真的是一個,它其實目前來講是一個偏技術化的概念。它不像語音這麼通俗,但是語音其實就是說我剛舉的例子,你看現在智能音箱這個硬件,硬件其實沒多少錢,一百多塊錢,但是裡面的那些應用和那些服務技能,全部是基於語義來做的。所以語義能夠延伸的價值會比,其實音箱,一個硬件或者一個語音識別的模塊,其實要大很多的。但是很多時候它倆是不同的階段,不同的模塊。

本站科技:您爲什麼覺得它還處於積累和沉澱期?

俞志晨:因爲語義不好實現,就像你剛纔說的,一千個讀者有一千個哈姆雷特,這個事情從技術層面來講很難實現它。不像語音識別,剛纔說語音是一個,比如我說一個字,它是一對一的關係,視覺也是一對一的關係,就是傳感,感知系統是一對一的關係。但是語義是一對X,不知道多少個關係。所以這個事情本身從技術上來說很難,因爲它很難,所以它結合起來的話,可能需要的工作量會大很多。

本站科技:語義識別現在發展到什麼程度了,哪些問題是可以現在完全能解決掉的,哪些問題是沒有被解決掉的?

俞志晨:語義通常有幾個方面,從大的來看,第一個是說指令型的這種理解,比如說很多音箱,智能家居,說打開或者關閉,我們叫指令級的理解,這個是屬於最低的層次,但是這個也是目前解決的比較好的。第二是問答系統。比如說很多客服,它實際上還是多輪,就是屬於帶有一定的複雜任務的,這個其實會更高階一些,用在客服,用在一些其他的虛擬的一些助手這些領域。這個領域其實門檻又會更高了一些。第三個層次是在開放域的聊天系統,就跟人一樣,我們閒聊,天馬行空的在聊。這個從技術實現來說應該是最難的,這也是整個行業的難點,從技術上來講,可能技術上還做不到這種突破吧。

本站科技:目前能夠達到的這個和用戶需求的當中,這個距離還有多遠,還有哪些問題沒有解決?

俞志晨:我的感覺,第一是說它的整個問題單子裡面有很多個,有一堆問題需要解決。第一個是說,這種語境的理解,上下文這塊的理解。比如我說我餓了,你說我真的餓了嗎,其實不是。那它怎麼判別是不是餓了還是不餓,還是說他到底說這句話是什麼意思。

本站科技:它需要的信號不光是這個語言這個項,它需要很多環境的信號。

俞志晨:其實單純從文字的信息抽出來的話,它永遠不能夠百分之百能夠去理解這句話的真實意圖。但是它需要去融合一些背景信息,融合一些這種環境信息,包括時間,你的一些習慣,還有包括你的一些性格,然後判定你是不是真的餓了,以及你真正的意圖。語義是一個意圖理解和識別的過程。

本站科技:你剛剛指的這個對語境的理解是其中的問題之一,還有很多問題沒有被解決。

俞志晨:對,語境是一塊,第二是說整個知識圖譜體系。理論上講,如果我們想要做通用的東西,前提是我需要去構建一個龐大的體系化的知識圖譜,而且它還得具備推理功能,這個其實還是挺難的一件事情。第三個是語言的表達層面,說實話現在目前機器人的語言表達的豐富性還是不夠的,語言的表達這塊,怎麼讓它像個人一樣的去表達這些語言。它能做到一定的表達的能力,比如說像如果打分的話,100分是滿分,它可能能做到50分、60分,但是離我們所謂的比較好的效果還有一定的差距。

最後還有一個歸於它的性價比,我們做的事情,很多時候技術跟它整個的它商業化的場景,它倆是相輔相成的。如果說這個技術投入過大,那可能這個事情就很難推。但是如果這個技術推起來還能賺到錢,這個事情就比較容易推。像語音識別一樣,它已經能賺到一點點錢了,圖像也一樣,圖像識別是它確認已經能夠開始去掙錢了,而且能夠商業化的還不錯。

本站科技:你們之後還會如何來推動語義的應用?

俞志晨:我們跟百度的VR這塊有合作。用VR結合圖靈AI做了一個虛擬機器人,也就是VR版的一個機器人,就相當於Siri加一個人工形象,然後用在VR世界裡面去做交互。

本站科技:那我明白了。我之前在很多場合聽過圖靈機器人,但是我不知道現在你們的產品是用在哪些領域,我們生活當中,哪些產品背後其實是用你們的技術?

俞志晨:很多音箱,很多機器人可以跟你對話,可以跟你互動,但背後的技術你肯定不知道是誰家的。我們原來最早一大塊是在微信裡面,比如微信公衆賬號,微信羣還包括有QQ。從過去一兩年也更多是向很多兒童機器人、兒童玩具這類的產品用我們的語義技術。

本站科技:你們在微信公衆賬號裡面的應用是什麼?

俞志晨:類似很多的一些公衆賬號,比如你可以給它發文字、發語音,然後它給你回答,它就是一個類似一個自動的個性化的羣管理機器人。

本站科技:圖靈機器人目前主要的競爭優勢是什麼?

俞志晨:第一就是語義技術,第二就是產品體驗。

本站科技:你們目前在語義這塊是國內第一嗎?

俞志晨:我只能說我們至少在語義這個行業裡面數一數二,因爲第一這個事情是沒法兒去驗證的,你說我們比微軟的好,這個事情好像也沒有辦法去實際證明。但是至少說從客戶,從整個的各種指標來看,我們還是這個領域的,算是領先的公司吧。第二是說在一些特定場景,那肯定以我們最好,比如像兒童語義,那我們肯定是最好的。比如同樣做語音和對話,微軟小冰可能會用在二次元,或者是一些偏90後、95後這個羣體比較多一些,我們的年齡段更小一點,我們可能是在05後,10後,就是偏兒童這塊更多一些。

本站科技:我們現在在市場上能見到的那種兒童陪伴的機器人,背後絕大部分都是用的你們的語義識別技術?

俞志晨:差不多。

本站科技:任何一個牌子嗎?現在我在機場看到好多商店裡面不是好多那種陪伴機器人。

俞志晨:我看了一下,應該有一半了吧。

本站科技:另外一半用的是誰的?

俞志晨:有訊飛,也有用百度的,也偶爾會用其他的一些第三方的語義公司的,零零散散的。我去機場看,一半多。因爲機場擺的東西不太一樣,我只能說一半、一半多。

本站科技:2018年語義這塊,您覺得會有什麼樣的一個進展,市場整體上發展到一個什麼狀況?

俞志晨:從市場來看,今年各家公司對於語義的關注力度會更大,很簡單因爲語義其實格局還是比較確認,而像科大訊飛和百度,這幾家語音的市場份額是比較固定的,想搶也不太容易搶,視覺的那幾家也基本上佔得比較緊。

第二是說關於這個技術本身的走勢來看,在今年或者明年會有更多的一些好的產品能落地,這是必然的趨勢。

第三今年最重要的一個事情就是各家來圈場景,誰能夠真正把場景拿下來,這是很重要的事情。因爲我覺得像對於語義來講,它跟場景有很大關聯性,它目前還不像語音和圖像那樣做得那麼通用,但是語義實際上跟場景的依賴性還是比較強。

本站科技:圖靈機器人目前,你們今年主要做哪些事,今年主要的核心也是圈場景嗎?

俞志晨:圍繞着兒童場景來進行,兒童AI是關鍵。

本站科技:圖靈不是已經兒童機器人這個場景不是已經圈住了嗎,你們還準備圈什麼場景?

俞志晨:兒童有核心場景,也還有更大的場景,比如穿戴、學習,還有包括線下,比如商超。

本站科技:你們主要會圍繞兒童的市場來做嗎,還是說今年你們也會做別的?

俞志晨:今年第一肯定是兒童,我們會首先把它做好。別的領域我們也會做,但是現在我估計今年下半年我們會有一些其他領域的產品,會有一些發佈,到時候可以關注一下。

本站科技:目前在語義這塊是不是大部分是集中在兒童這個市場上的?

俞志晨:也不是,你像客服就很多,還有做輿情,其實挺多的,做輿情分析、客服,還有做一些語音助手,包括智能家電、音箱、車載,其實都有涉及。

本站科技:爲什麼你們沒有選擇那些場景,而是選擇了兒童這個場景呢?

俞志晨:我們覺得對於公司來講,可能這個場景相對來講更容易成熟一些,比較容易去把這個市場真的能夠做得比較成熟。

本站科技:其他的比如客服好像我也聽到,也挺多的。

俞志晨:但是客服這個事情比較分散,這個市場也很大,但是這個市場很分散,很難一家把它佔到一個很大的市場份額,就這個意思。所以這個就跟公司的選擇有關係,我們可能不太去選擇做那些定製化程度比較高的領域。

本站科技:你們先做通用性比較高的?

俞志晨:對,垂直場景在我們看來是說,它的場景的通用性還是比較強的,我們會去做。

本站科技:除了兒童機器人這個市場,你們還覺得有哪幾個市場也是比較不錯的,符合你剛纔說的比較通用的,能夠大範圍真正落地的?

俞志晨:VR、AR這種當然也可以,但是這個市場可能還需要再培育一下。說實話我別的關注的倒不是很多,我現在最主要就是關注兒童還有機器人領域這兩塊。別的車載其實也還行,車載這個市場足夠大,但是車載這個時間會長一點。智能家居也不錯,但是智能家居短期之內想掙到錢,可能不會那麼容易。

本站科技:爲啥不會那麼容易?

俞志晨:我說對AI技術來講,因爲整個市場處於變革期,像音箱這個領域現在量很大,吸引大家的眼球,但是音箱想掙到多少錢,其實有點難。

本站科技:爲啥?

俞志晨:因爲他們在燒錢,補貼。

本站科技:他們賣的價格比較低?

俞志晨:對,因爲它從源頭開始就不掙錢,他們就補貼。補貼完了之後其實你,如果它整個前端不掙錢的話,後端這塊也很難真正的能收到錢,這個沒有那麼快。

本站科技:你們會進入哪些新的領域?

俞志晨:我們還是圍繞服務機器人的方向去走。

本站科技:但是就不光是兒童了?

俞志晨:別的可能會涉及一下,但是現在,可能到下半年我們會明朗一些,現在還在做一些驗證。