第158章 我們究竟在談些什麼

顧莫傑本該下班了,但是嚴磊的報告,成功引起了顧莫傑的注意,他決定加夜班。

讓葉敏茹去樓下雲咖啡拿了兩個套餐,然後他在辦公室裡請嚴磊邊吃邊談他的想法。

“說說吧,你對‘谷歌中國五年來在華蒐集的搜索數據’的用法細節,是怎麼看的。”

嚴磊依然保持着四年前認識顧莫傑時的學者氣,不怎麼講究禮貌,就大咧咧坐在顧莫傑對面,一邊用便當,一邊閒聊。

“你不都已經把‘初秘’那個項目交給我做了麼,寒假就要和iphone4的siri掰腕子了,難道就不想讓‘初秘’的水平在這個節骨眼上,再上升一個臺階?”

嚴磊口中提到的這個‘初秘’項目,是顧莫傑從去年初心1代手機上線後,就丟給初音的人工智能研究團隊研發的項目。

他對後世智能手機行業發展那一點僅存的記憶,到2012年底爲止。那段歷史上,蘋果公司的手機在iphone5這個型號上戛然而止。

蘋果公司會做出siri這個人工智能語音助手,顧莫傑是知道的。

那些買了iphone4s以上蘋果手機或者ipad3以上平板的用戶,可以通過siri,對機器發送語音聊天。機器會試圖模擬真人對話,並且給出使用者想搜索的內容、答案、軟件app應用,或者幫助用戶撥打電話、尋找聯繫人等等。

顧莫傑要弄的‘初秘’,就是一個狙擊siri的存在。

iphone4明年二季度就要上市了,初心2代手機會比iphone4更早一兩個月。

‘初秘’的開發,本來已經到了箭在弦上的衝刺階段。

初音集團在人工智能方面的步伐,並不比蘋果公司慢。哪怕沒有別的新招,顧莫傑手下的人也能按期完成初秘。

但是此刻,嚴磊讓顧莫傑看到了一股更高的期待。

他眉毛一挑,身子微微前傾。

“你是說,給你弄到谷歌中國過去五年在華蒐集的搜索數據,就可以幫助你提升初秘的人工智能程度?”

嚴磊細嚼慢嚥地吞下一片肥牛,喝了口飲料:

“當然。問題問答型的人工智能,本來就是要靠不斷訓練、不斷積累雲端大數據,纔會回答地得越來越準、越來越接近真人思維模式。搜索、點擊,本身不就是深度學習算法架構下,問答智能的最初淵藪麼?”

深度學習算法,本該是傑夫辛頓教授提出的學說。

本時空,這個機會被顧莫傑分潤了。

要說所有互聯網大佬當中,對深度學習算法和雲端架構的人工智能認識程度,恐怕顧莫傑能排世界第一。

只是在所有當老闆的人裡面,見識排世界第一。不包括和磚家們比。

也就是說,在對人工智能的遠見卓識上。哪怕拉里佩奇、扎克伯格、喬布斯,這3個大佬的見識,也比不上顧莫傑。

嚴磊的話,點撥到這種程度,已經足夠顧莫傑秒懂。

這個思路很不錯!

用百度,或者谷歌,搜索網頁。

這個搜索動作的本質,是什麼?

其實就是一次問答。

比如一個網民,在百度上搜“權寶兒”三個字,然後彈出幾百萬個搜索結果。

第一個搜的人,得到結果列表後,點擊了“權寶兒”的百度百科詞條。

第二個搜的人,點擊了一條她參加的綜藝節目視頻。

第三個搜的人,點擊了一條關於她的娛樂新聞。

第四個、第五個、第六個,又點了百度百科詞條。

假設,因爲百度的用戶容量夠大,有10萬人次搜了“權寶兒”這三個字,然後百度根據反饋統計:其中43%的人搜索後,點擊了百科詞條,22%的人,點了某娛樂新聞,17%的人……

這時候,如果把百度搜索的雲端大數據,接爲‘初秘’或者siri的服務器端,初秘就會知道:當下一次她的手機主人說出“權寶兒”這三個字的時候,優先把這個詞的百度百科詞條內容推送給主人——當然,是用語音閱讀的方式。

這是最簡單的問答型人工智能,靠統計數據,來讓機器的回答,更貼近代表所有網民中最大衆的那一羣人的意見。

這個過程中,機器並不理解“權寶兒”這三字代表了什麼,它只是在算法上統計了“所有曾經搜過這個詞的人,在搜索後點擊查看了哪條答案”,然後把看過人最多的那條答案,推送給最新問這個問題的人。

這樣的大數據,只有搜索引擎服務的提供商,才擁有。或者說,只有那類公司的數據,樣本容量才足夠巨大,足夠客觀,足夠撇掉誤差。

在中國,只有百度和谷歌有這個資本。

而且,百度和谷歌除了搜索大數據的歷史記錄足夠龐大、完爆其他搜索服務提供商之外,他們還有一個獨門之秘,在2009年只有他們兩家形成了規模。

那就是“百度知道”,以及比百度知道遜色一些的“谷歌問答”。

“知道”,是一個比搜索更加貼近人類語言習慣的問答產品。在搜索的時候,人只會打幾個關鍵詞,很少會直接長篇大論寫一句話,寫一個用人類正常語法表述的問題。

而用百度知道的時候,因爲背後是人類在回答,所以大家都遵循了人類語言的語法。

一個新買手機的用戶,和初秘或者siri聊天的時候,問到的問題,真的是絕無僅有、從來沒有前人問過的麼?

恐怕不盡然。

十幾億人心中的困惑,有相當大一部分是重合的。同一個問題,可能全國有幾百萬人想問。

有了百度知道的雲端大數據之後,初秘或者siri再聽到手機主人的語音發問時,就可以先搜一搜這個雲端數據,看看有沒有近似的或者重複的前人提問。

如果有,直接把前人提問中的“被採納答案”推送過來、語音閱讀一遍就行了。

在“知道”這個產品上,谷歌其實走得比百度慢。谷歌的強項,是“谷歌學術”那種專業標準化的問答,而缺少家長裡短的日常人工智能鍛鍊。

在人工智能領域,如果非要對比谷歌和百度的優劣勢,只能說:谷歌可以訓練出更精密的機器,但是不如百度那樣容易給機器學會‘七情六慾’。

因爲早年的谷歌,壓根就沒想到去鍛鍊其人工智能的這個方面。

當然,說句良心話,百度也沒想到。

“百度知道”日後教會了“度秘”比siri更能插科打諢,也只是百度發展時一招無心插柳的歪打正着。

……

正因爲顧莫傑懂行,因爲他自己就懂深度學習算法,所以,他比別人更能領會嚴磊開出的條件誘惑力。

初音集團,在搜索上是弱項。

但是初音集團,在人工智能的算法領域,是強項。

一個企業人工智能產品的強弱,受制於兩個因素。

一個是算法的好壞,一個是大數據的規模。

比如,谷歌的算法效率假設是10%,而谷歌的日搜索處理量是10億條,所以谷歌的人工智能每天理論消化的問答是1億條。

如果初音的算法效率更好,有20%,但初音每天的搜索處理量只有1億條,那麼初音人工智能每天理論消化的問答只有2000萬,比谷歌弱了五倍。

有好算法,有好的“數據消化效率”,卻沒有足夠的“數據飼料”去餵養這副“消化功能”極強的“胃口”。

這一直是初音人工智能研究院的缺憾,短板。

但是,如果按照嚴磊的說法,把谷歌中國過去五年,在中國市場上搜集到的服務器端歷史記錄數據統統copy過來,“填鴨式”地塞給“初秘”去學習,那麼初秘在“真正聽懂中國人講話”這個問題上,起碼可以贏得相當於額外獲得兩三年時間鍛鍊的效果。

歷史上siri公司成立於2007年,10年被蘋果收購後,在4s上放出了這個人工智能產品。

但是用過iphone4s的用戶,恐怕都有一種記憶:

剛開始,4s上的siri智能程度真的很低,幾乎聽不懂什麼話。還是隻能和舊時代的“語音撥號助手”那樣,幫主人翻翻通訊錄、撥打一下電話爲主。

至於讓siri真的近似於人一樣和主人聊天,似乎是2012~2013年的事情了,那時候的siri才漸漸說話像人話。

那就是因爲,siri花了兩三年時間來“學習”、來積累和消化雲端大數據,漸漸統計出人類語言習慣。

如果谷歌中國不倒下,谷歌在華的那多年數據記錄,肯定是作爲商業秘密不會公開的。因爲那涉及到其對中國人上網習慣的統計。如果公開了,很有可能被對手拿去,作爲優化對手引擎算法的參照物。

但是,如果谷歌中國倒下了,這些數據再遮遮掩掩藏着,似乎就沒什麼意義了。

只要顧莫傑出一筆看上去挺誠意的價碼,谷歌總部相信就會把這筆數據財富賣給初音。

顧莫傑意淫着美好前景,簡直要獸血沸騰。

恨不得現在就在老朋友拉利佩奇脊樑骨上捅一刀,然後把谷歌中國的數據資源巧取豪奪走。

“磊哥,來,好好說說你數據到手之後的詳細使用計劃。我都有點迫不及待了……”

“當然沒問題,就是如此如此,這般這般……”

嚴磊一副指點江山狀,對顧莫傑講解了一個鐘頭的技術路線梗概。

“只要做到了這些,然後,我們的初秘肯定可以在‘人話識別率’上領先siri至少兩年。”

第四十二章 還怕得罪白蓮花?第六十二章 啥生意都能做成共享經濟第149章 秒殺誰好呢第二十八章 黃瓜的新用法第85章 自古補貼難逃死第四章 遲早要來的背後捅刀第171章 不想買還是買不起第49章 客戶要的是洞第34章 神仙太多認不全第169章 買光容易養光難第199章 無處不在炒房團第二十九章 周立新的野望第三十六章 時代人物第五十六章 瘋狂買買買-下第三十三章 廣告難做第四十一章 安之若素第127章 養肥再殺終極版第六十四章 逼入絕境的加拿大人第七十章 提前佈局第五十九章 自古資本最無情第五章 錢燒包的富二代第七十一章 與人善緣第七十一章 謀定而後炒第109章 秒天秒地秒空氣第六十六章 初臨華盛頓第七十九章 一切皆戰場第九十章 谷歌想入股?第86章 像三體人一樣秒殺第四十一章 大學這就算是結束了?第四十章 樹欲靜而風不止第123章 工業光魔第53章 時代喉舌第四十一章 天予弗取第34章 神仙太多認不全第28章 抽搐的機會都沒有第八十三章 給的再多 不如懂我第169章 買光容易養光難第四十七章 狙擊!穿越火線!第九十一章 佈局四萬億第三十八章 絕世陰謀第七十九章 線下體驗第四十七章 狙擊!穿越火線!第三十五章 一口老血第四十六章 不速之客第三十章 哪行都有新手可騙第一百零三章 渾水摸魚第103章 國際分工第16章 體育大數據第四十五章 多線出擊第二十四章 QQ戰爭第三十二章 多國聯軍圍剿第二十四章 人心難服第72章 我只是個賣牛仔褲的第138章 承認共識也沒用第四十八章第五十三章 跨次元教父第九十六章 巨頭落幕第四十一章 天予弗取第28章 抽搐的機會都沒有第93章 初行VS阿爾法GO第87章 一羣賣產品的草包第七十四章 巋然不動第四十四章 至動極靜第103章 國際分工第160章 谷歌推倒計劃第一百章 告學霸書第98章 世界末日還是重生第二十二章 針鋒相對的安全衛士第七十七章 蘋果來襲第五十九章 身不由己江湖路第五十章 能者無所不能第七十四章 科技無法消滅之人第五章 融入校園第八十七章 記結論者恆爲奴第92章 蓋棺定論第四十三章 非典來襲第四十五章 多線出擊第73章 布不到局才賺錢第五十九章 這不僅僅是個輸入法第197章 沒圖這個掙多少錢第151章 你好污第三章 先行試坑者丁三石第八十七章 殃及池魚第七十五章 趕鴨子上架第70章 真的敵人第三十三章 生意上可以當接盤俠第十章 魔高一尺第二十三章 剁手黨屬性再次發作第一章 青年危機第六十六章 管窺蠡測第54章 巨鯨出水第十六章 一步到位第五章 錢燒包的富二代第二十章 草臺班子第35章 波音級的待遇第六十五章 恩威並舉庶有濟第94章 好好把人腦當人腦用第六十三章 費潔詩第五十一章 你當初的目的是什麼第九十一章 佈局四萬億