出門問問 CEO 李志飛:人工智能不是雪中送炭,而是錦上添花

(原標題:出門問問 CEO 李志飛:人工智能不是雪中送炭,而是錦上添花)

出門問問CEO 李志飛

未來 AI 的世界應該是什麼樣的?

在鈦媒體2016 T-EDGE 年度盛典上,出門問問CEO李志飛給出的答案是“兩個世界”:一個是媒體和大衆眼中的科幻世界,另一個是AI一線從業者眼中的現實世界,前者遙不可及,後者更接地氣。

出門問問便屬於後者。四年前,還在谷歌做谷歌翻譯工程師的李志飛就有了創業的打算,他的目標是要定義下一代人機交互,用語音或者自然語言代替以鍵盤或者觸摸屏爲主的非自然交互方式。

創業之後,出門問問先是從語音識別的算法入手,逐漸打造了出門問問語音搜索、智能手錶操作系統Ticwear等一系列軟件應用,在發現這些無法觸及真正用戶後,出門問問CEO李志飛找到了一個更現實的產品路徑——以AI爲中心的軟硬結合方式落地使用場景。

出門問問CEO李志飛認爲,AI技術發展過程中兩種可以預見的趨勢:一個是由於受產品用戶量的限制會讓全世界99%的AI創業公司都選擇2B領域;其次是智能化會重新塑造一些原有消費電子的屬性,像電視、手錶、汽車等等。

AI的應用無處不在,但它也並不意味着憑空創造需求,AI自己不能形成一個獨有的產品或者獨有的商業模式,它必須滲透到各個已有的產品裡面去,才能帶給用戶更好的體驗。所以從這個角度來看,AI不是雪中送炭,更像是錦上添花。

很高興今天來給大家做演講,其實我覺得今天的人工智能,應該分爲兩個世界。

一個世界是媒體的世界、科幻的世界。

其實今天我覺得你們是不願意聽我來講的,可能更願意看到的是像無人機飛來飛去、機器人在前面跳來跳去,或者VR、AR代替都帶着頭盔看一些很好看的動畫,這是很多在媒體或者在公衆場合大家去討論AI希望看到的一類產品。

另外一個世界,可能是真正從事AI的一線工作人員的世界。

首先,其實我們是特別苦的,你們前面講的那些東西,雖然我是AI工程師,但是坦白講很多東西臣妾做不到,至少在接下來一兩年我做不到。第二個,就算我做得到,我也不知道賣給誰,無人機是非常非常未來的,但是作爲一個初創企業,首先很難做出來,就算真做出來了,怎麼去賣其實都是非常難的一個問題。

所以今天我想更多是從創業者,從企業或者是從一個小公司去跟大家分享一下我們的經歷,包括我們對整個行業的思考,以及我們自己產品的一些介紹。

我是4年前在美國的谷歌做谷歌翻譯,當時我就決定要創業,那個時候我去跟投資人講,我們的願景是我們要定義下一代的人機交互,很多投資人不知道什麼叫下一代的人機交互,我也沒有特別搞明白,當時就是特別簡單的信念。

2010年在硅谷移動互聯網剛剛起步,但是手機還沒有那麼普及,我記得當時很多買手機都是爲了玩憤怒的小鳥這個遊戲。於是那個時候我們就開始思考,下一代的交互方式是不是跟過去一模一樣(過去更多是用鍵盤)?

當時覺得在手機上因爲屏幕特別小,可能很難以用傳統方式去做很好的交互,剛好我自己的背景又是做機器翻譯——這種比較偏人機交互的一些技術。

所以我想如果能夠利用我的技術跟浪潮相結合,最後去定義下一代的人機交互,是非常非常興奮的一件事情,我們認爲下一代的人機交互就是以語音或者自然語言的交互方式,而不是現在以鍵盤或者觸摸屏這種非自然的方式進行交流。

剛開始我們回來的時候,認爲這個事情可能比較簡單,我要做語音交互,咱先把所有的技術都給做出來。所以我們在前面一年半的時間開發了自己的語音識別,再強調一下,是自己的語音識別,因爲老是有人今天還會問我,你的語音識別是不是用的誰誰誰的,其實沒有那麼難,我們自己的語音識別,包括自己的搜索推薦,因爲我們希望做一個產品,能夠真正給普遍用戶區使用,而不是給企業在背後使用它。

首先我們做了技術,也做了一些把技術封裝成產品的嘗試,比如我們做了手機應用“出門問問”,我們希望定義下一代的交互方式,出門就要問一問。

很不幸我們很快發現,我們的語音識別雖然非常前沿,但是有很大的問題。第一,我們在手機上做的產品,用戶體驗沒有給用戶帶來真正的價值,因爲我們不是一個操作系統層面的集成,當用戶使用我們的時候,先得解鎖——點開APP——點語音的按紐——然後說一句話,但是接下來真正要做一個實際的動作,比如買一個票要定餐還得跳到另外一個APP裡面去,整個過程語音交互給用戶帶來的價值沒有那麼大。

我們很快意識到如果說再這樣下去,可能很快就活不下去了。其實還沒有那麼糟糕,基本我們的錢不需要補貼用戶,主要是發工資。但是就是這樣的話,我們覺得如果說用戶沒有增長,或者用戶沒有黏性,很難往下做。那時候我們開始做思考。到底語音交互怎麼樣才能夠使得用戶真正使用起來,給他帶來真正的價值。

首先我們開始做了智能手錶的操作系統,很快發現做操作系統沒用,因爲沒有好的硬件,就開始做智能手錶,首先一年半我們主要是做技術和APP的產品,在過去兩年半我們一直都在做的事情是怎麼把AI的技術放在實實在在的硬件裡面去做一個軟硬結合,使得我們的產品更有競爭力。這是我們在過去兩年,一個比較大的嘗試。

其實我認爲以AI爲中心的軟硬結合,可能在今天的消費場景下面是最現實的路徑,爲什麼呢?其實今天的AI技術很不成熟,它不像我們的內存或者說硬盤,你可以把它作爲一個商品直接買過來組裝使用,對於AI產品來說集成性很關鍵,你需要把提供語音識別、語意理解、硬件、操作系統的人都聚集起來,不然很難做出好產品。

所以現在我們看到谷歌,在這一塊可能思考方式跟我們比較類似。今天,我們可以看到谷歌在做硬件方面已經非常的堅決,兩年前谷歌做的所有事情都是做生態,我做操作系統,你們所有的硬件廠商來做硬件,聯合把這個生態做起來。

但是AI這一塊確實可能推動起來比較慢,最後谷歌覺得如果我依賴於你們,還是沒法推動AI往消費層發展,所以開始非常嚴肅的做自己的硬件,無論手機還是VR,還是智能家居的產品,整個趨勢我認爲AI真正要落地到生活中,要能夠提供一個更好的體驗,能夠逐步的迭代,一定需要軟硬結合的形態,這可能是比較靠譜的方式。

AI的發展趨勢是什麼樣子?作爲一個工程師最不喜歡預測未來,包括剛纔前面教授直接告訴你說不知道,其實我們也不知道,因爲技術的發展變化非常快,而且有很多各種各樣的限制。以前我一般是不會去講未來會怎麼樣,因爲確實不知道怎麼講。

5年以後,10年以後,這個事情非常非常難以預測的,如果你能預測的話,一定是事後的馬後炮,但是未來的兩三年我們可以做哪些事情,或者整個產業可以怎麼樣的發展,今天我們還是稍微分享一下,但是很有可能明年這個預測就變掉了。

首先這個趨勢,也是一個事實,就是AI的應用無處不在。AI不是雪中送炭,AI自己不能形成一個獨有的產品或者獨有的商業模式,所以AI必須滲透到各個已有的產品裡面去。使得你的效率提高到更高,使得你的產品更有競爭裡,我覺得這是非常自然的,而且已經慢慢發生,可能在未來一兩年你會看到更多這樣的例子。

在2C的互聯網的場景分兩類,大公司跟小公司,大公司的好處是有海量的用戶的產品,他們把AI放在這裡面提升已有的產品體驗,這是非常自然的一個延展,而且也會看到同樣好的結果。小公司沒有海量用戶的產品怎麼辦?其實有兩種方式,一種2B,一種2C,全世界99%的AI的創業公司都會選擇2B,所以這是第一個大的趨勢。

第二個,我覺得可能就是消費級的產品。硬件的智能化或者智能的硬件化,這跟我前面講的軟硬結合是非常一致的,大家可以看到,我們無論手機還是電視、手錶,還是接下來的音響其實都已經被這個智能化重新塑造了。你看今天的手機廠商跟三年之前的手機廠商是完全不一樣的。

其實另外還有一個的特別大的消費品類,就是汽車,當然汽車跟前面的品類都不太一樣,它非常的獨特,因爲汽車特別特別難做,不像前面的手機也好或者音響也好,電視也好,可能一兩年沒做過硬件的公司也能做起來,但是汽車確實比較難一點。

汽車怎麼去智能化?今天可能很難去看清楚。其實現在很多已經很多人做嘗試,但是大家能夠想到汽車自己能夠進化,把智能化的方式加進去,汽車一方面難做,另一方面,跟前面不太一樣,汽車更主要還是機械的部分,至少在以前,電子部分都沒有那麼多,但是今天我們把它變成一個軟件,從機械再到電子,再到軟件,這是很大的挑戰。

出門問問比較務實,我們希望能夠短期的在這個市場裡面見到用戶,但是長期我們又能夠做一個核心價值的積累。最主要做的汽車的產品就是智能後視鏡,你可以想象把你的鏡子換成一個智能的4G手機,它是整體跟車相集成的產品,有了4G聯網你就可以做很多,而且都是通過語音,通過手勢這種新的方式去做,比如導航,比如聽音樂。

我們智能後視鏡跟同類產品不太一樣的是我們特別強調交互,交互裡面除了最簡單的語音交互以外,我們認爲最重要的我們在車裡邊一定實現無手無屏的交互,你在跟車設備交互的時候你不需要手去按,不需要眼睛看這個屏幕,只需要瞄一下就行了,這我們整個設計的原則。

所以這裡面我們做了語音交互,除大家可能已經體驗過或者看到的語音交互以外我們也做了一些嘗試。比如說我們一般的交互方式,我要跟設備交互可能要說“你好問問”然後他開啓之後,再說“幫我打開wifi”,它幫你打開Wifi。我們現在可以做到一句話就把它搞定,“你好問問,打開wifi”。

另外一個就是所謂的語音快詞,當你把應用打開以後,在地圖裡面你再也不需要你好問問,你直接說我要回家,我要上班,這種非常快速的方式直接說,直接可以進行整個操作。所以這是前面的一個關於快詞另外車裡面的環境,當你放音樂的時候,我也希望,我想換一首歌,或者我不想聽音樂,我想導航,以前的方式可能你需要用手點,把音樂停掉以後才能進行語音交互。但是我們現在可以做,他在放音樂,因爲我們加入了很多降噪的算法還是可以把它打斷,你好問問打斷,可以重新做別的事情。

還有另外一個非常重要的,所謂的對話,因爲在一些複雜的場景還是需要對話,你不可能說,完全就是一個熱詞命令就可以搞定。比如我跟他說我要導航去國貿,他開始給你導了,導航過程中可能直接問他,到目的地有多遠,他告訴你有多遠,目的地的附近有沒有什麼好吃的,他告訴你有什麼好吃的,或者目的地有什麼停車場,其實這些都是我們認爲比較好的方式。其實音樂也是一樣的。

由於時間關係,我可能不太過多的去講,這裡面很多語音交互,可能很多人都已經知道,或者聽過,但是我們希望在車裡面真正做到無手無屏的交互,你可以比較安全的使用它。

這個產品裡面集成了很多AI的交互,手勢可以直接換音樂,包括你直接放在這兒就可以幫你拍照,我們同時做了一個高級輔助駕駛系統,當你離前面的車太近的時候,兩邊就會閃。所以這裡面其實是我們集成很多AI的技術,希望能夠提供一個比較好的體驗。

我們希望未來把車和機器人全部打通,後臺用同樣的算法,但是前臺的用戶有一個帳號系統,最終實現一個非常智能化的生活,這是出門問問的一個最終的願景。(本文首發鈦媒體,根據 2016 鈦媒體 T-EDGE 年度盛典演講實錄整理,記者/李玉鵬)