第14章 突破!新輸入法神器

杜克進入一種入魔一樣的研究狀態,他現在的時間非常寶貴,完全沒有多少可以浪費的空間,所以在吃完後就迅速回到自己那個小小的家裡。坐在24小時不間斷下載的電腦面前,他瘋狂搜索下載各種語音片段資料,交給克里進行語音語義分析及基礎知識庫的建設。

自從搬到出租屋後杜克已經瘋狂在網上下載了數千各種環境和語境下的語音片段,從電視電臺新聞片段到影視劇對白、動物世界或是國家地理頻道的科教解說片段,以及各種偷拍、自拍、僞自拍生活現場片段,感謝酷溜土豆、youtube,還有BT和電驢,讓杜克知道原來世界還有如此豐富多彩聲音。

杜克收集的如此衆多聲音索材對於克里處理能力來說卻彷彿是滄海一粟,往往剛剛輸入進去,克里就運算解析出來該片段的語音語義特徵,從而爲語音識別的語音語義特徵庫增加一份新的標本元素,越是不同的語音片段越有價值。

這就像一個人生活過的地方越多,就越能聽出不同地方口音是一個道理,每個聲音都是有一些特殊特徵和普遍特徵構成的,現在的語音識別軟件對於標準發音的識別率其實已經很不錯了。

如IBM在很多年前就推出語音識別輸入系統ViaVoice,在安靜環境和標準發音情況下軟件識別率可以達到實用級別。

可惜實際運用環境不會那麼理想,而是就像杜克寢室中4個人一樣千差萬別,雖然大家說的都是中國話,但是四個來自不同地方的人的口音卻大相徑庭,剛剛住在一起的時候四個人溝通經常有些問題,但是大家很快就適應下來。

人腦強悍的學習能力絕對不是當今電腦所能夠比擬的。而現有的語音識別軟件卻沒有這麼強悍的學習適應能力,也就是說它沒有用來識別這種語音特徵差異的知識庫,當然就無法將一些未知類型的發音很好的識別出來。

不同口音的識別和環境噪音的排除是語音識別倆個難題,要解決這些問題需要大量的第一手語音資料片段來建立一個海量的語音特徵知識庫,或者是開發出像克里這般高度智能的超級電腦。

克里根據杜克下載的理論資料,結合各種語音片段分析,不斷對語音識別基礎算法進行了更新,並且生成不同的語音識別模擬器--這是主要考慮到地球現在主流電腦的運算水平比起克里來說實在太低級。

以模擬iphone4s的50%運算能力爲最低基準,克里模擬出不同性能情況下該語音識別算法的準確率和反應時間,原始版本從最初基準性能下5秒內能夠達到90%的識別準確率--當然這個成績已經遠超現在地球上所有語音識別軟件水準。

要知道這個90%準確率是用數千段不同語境的不同口音中英文語音信息進行模擬識別檢驗,也就是說基本上考慮了各種口音及噪音的過濾處理。

這個成績已經比現在只會聽英文的蘋果Siri要強多了,畢竟Siri現在能夠識別的也是比較標準的英文發音。不信你拿印度口音和新加坡口音的英語錄音片段試試看Siri能夠識別出多少來。

如果是在一臺模擬性能接近雙核2G以上主頻電腦上,這個指標的識別水平將會提升到2秒以內達到97%以上準確率,反應時間同識別準確率其實有些衝突,因爲要識別更加準確必須要原始版本的語音語料庫基礎資料來源更加豐富。

聲音採樣越廣泛識別準確率越高,而語音樣本庫越龐大,用於搜索匹配的時間就會越久導致反應時間的延長,因此語音樣本的抽樣壓縮和語音搜索匹配算法一直是克里優化的倆個重點。

克里一直在不停地模擬改進提取語音語義特徵值的算法,通過不斷壓縮冗餘值,在保持不失真的情況下持續不斷縮小語音樣本語料庫大小,另外一方面也不斷改進對語音語料庫智能搜索匹配算法。

優化算法杜克幫不了什麼忙,但是收集儘可能多的語音樣本杜克卻沒有問題,所以杜克的每一天都過着一種非常充實的生活,日復一日地搜索下載不同類型的語音樣本供克里分析提煉,同時不斷去學習理解克里所創造的這些全新的處理算法,要敲開麻省理工的大門。

杜克必須要有一篇體現自己能力的世界領先水準的語音識別基礎理論創新性論文,可是在克里的知識庫中並沒有現成的語音識別知識,這些對於克里來說太老舊了,老舊到比萊姆都沒有爲克里增加這些知識。

而克里現在做的就是在地球上現有語音識別理論和算法基礎上,利用他強悍到無邊的模擬能力,不斷地模擬各種不同的語音處理算法。

通過模擬來找到一種更加有效的--這種方法雖然有些笨拙,但是有了克里超強的運算能力,畢竟每秒鐘成千上萬種可能算法都可以模擬,使得這種笨拙的方法也有相當的效果,找出了好幾種可能的優化算法,將識別率和反應時間提升到了一個新的高度。

可是要將這些成果用地球人能夠理解的語言和理論寫出來,還要讓人能夠看懂,不管是對克里還是杜克來說都是一個新挑戰,因爲克里不是以01爲核心的機械二進制思維模式,而是生物多態思維模式。

儘管克里現在已經能夠瞬間同時模擬出地球上常見十多種不同性能PC機虛擬機--爲了讓克里能夠準確瞭解地球上電腦的運算能力,杜克買了四臺不同接口的主機和接近二十塊市面主流PC機CPU提供給克里分析和測試性能基準,然後克里根據這些配置的性能來進行虛擬對應的模擬器。

可是這些特殊的虛擬機由於不需要讓人理解,所以克里完全可以按照自己的運算方式來創造,因此性能雖然相當,但是實現模式卻大相徑庭,比起地球上RISC和CISC倆種不同架構的CPU來說,複雜程度都不是一個數量級的。

因此在克里完成了按照他自己模式實現的算法後,還要按照地球上01規則來重新實現,這個對於克里來說確實是一種巨大的挑戰了,更別說論文還要在此基礎上再次抽象,不光要有軟件實現算法,還要建立起以地球數學基礎能夠證明的數學模型。

因此克里幾乎二十四小時不間斷地不斷運轉着,最終模擬算法能夠在最低基準上面實現1秒內達到97%識別率,而在雙核2G主頻電腦上實現1秒內99%以上識別率之後,足足又用了倆個周的時間。

在杜克看完十幾本數學專著,下載研究了好幾個開源語音識別軟件的基礎上,克里才完成了語音識別新算法的論文和協助杜克開發完成一個在地球電腦上運行的語音識別軟件。而這個語音識別軟件的第一個應用就是包裝成爲一種語音輸入法。

海角論壇。完成語音識別軟件和論文寫作倆個任務,杜克現在是一身的輕鬆。

他註冊換了一個馬甲加入到一個對克里的戰爭劇情發展討論貼中,爲了測試新軟件,只見他對着電腦麥,儘量模仿各種不同的腔調口音說着話,這些話很快就被電腦識別變成文字去回覆論壇中各種文青對人物和劇情的分析。

杜克對劇情瞭若指掌,分析起來當然頭頭是道,往往是一大段一大段的精闢分析,很快就引起了粉絲們的關注,當然有了語音識別輸入,杜克的雖然回覆內容實在,可是每次回覆卻還是比論壇中任何人都要快速。

感覺就算比起專業速記人員也毫不遜色。

“嘿,哥們你用的是神馬輸入法,怎麼回覆那麼快,幾乎是秒回了?”一個文青終於忍受不了杜克這種飛一般的回覆速度的好奇,忍不住發問了。

什麼輸入法?杜克一愣,隨即反應過來,自己爲了測試剛剛開發出來的語音識別輸入法,一時間沒有注意控制速度,沒想到如此拉風的秒回竟然不知不覺就引發了關注。

“一種新型的語音輸入法。”杜克變幻着用一種類似老趙的鐵嶺聲音說道,立刻電腦屏幕上準確將他的語音轉換成文字,收錄到的老趙語音樣本不少,識別率自然完全沒有問題。

在剛纔的討論中,杜克已經用他能夠想出來的所有發音方式進行了模擬測試,識別準確率百分之百,雖然他現在只是將電視機聲音調小作爲背景噪音,離一個複雜噪音環境還有一些距離,但是由於杜克變幻着不同口音和語氣,能夠達到這種水平,幾乎可以看到,鍵盤輸入法的時代結束了,這款語音輸入法的推出將宣告一個新輸入時代的開始。

“嗨,哥們,你逗我玩兒吧,企鵝語音輸入法我用過,那有你這速度和準確率。”那個文青不相信的回覆道。

“呵呵,剛拿到的內部測試版本,哦,Sala輸入法,不出意外的話很快你就能夠從各大網站下載到預覽版了。”杜克想起蘋果的Siri,不禁隨意地杜撰了一個類似軟件名字回覆道。

“真的還是假的?哪家公司研發出來這麼牛的輸入法?”

“這是公司纔開發出來的最新作品。正在測試中,呵呵,不過真的好用。擺脫鍵盤的感覺還真是不錯啊”

“收費還是免費的?免費的話能不能將你的測試版本傳一個給我,

“大哥,跪求發一個到ooo@”

很快貼子討論就偏離了方向,開始有越來越多的人關注到這倆個人的對話,到最後都加入到求Sala輸入法的行業,一時間滿屏都充斥着求Sala語音輸入法的回覆。

再度創造一個轟動效應的杜克,完全沒有想到一個軟件實測居然會如此演變,由此可見這個語音輸入軟件的適用範圍實在太廣泛了。但是杜克這次沒有頭腦發熱就答應下來,他就算再缺乏情商,也知道這個時候把軟件免費發出去是絕對不合適的,可見隨着智商的激增,尤其是經歷了同倆位編輯的談判後,杜克的情商還是有了那麼一點點的進展跡象。

實戰試用非常成功,驗證語音識別新算法沒有什麼問題,杜克滿懷信心地將論文電子稿件投遞到了JACM--這可是計算機業界頂級刊物,能在這上面發表論文,可以無可置疑的證明自己強悍的科研能力,比一百個知名教授的推薦都要有效,再配合杜克無可挑剔的GRE成績,申請麻省理工博士可謂毫無壓力。

第628章 偷襲(9)第774章 血戰巴拉卡(4)第157章 危機第466章 智能汽車(三)第132章 蛇吞象第455章 一步登天第784章 隱憂第334章 難處第197章 迂迴第127章 合資計劃第813章 非洲戰事第588章 彈指萬里行第219章 非洲之行(完)第794章 先下手爲強第666章 奪島(1)第169章 基地建設(3)第785章 大變局第197章 迂迴第616章 暗戰(3)第40章 來自斯坦福的邀請第718章 亮劍第715章 召見第320章 尾聲第421章 收穫第733章 國有民營第635章 大決戰(7)第188章 要求第730章 環球潛航(下)第620章 偷襲(1)第692章 來自大洋彼岸的猜測第758章 繼續領銜第584章 激發活力第681章 最後時刻第278章 黑鷹第780章 僞造第327章 重挫第413章 長效機制(下)第17章 第一屆股東大會(下)第773章 血戰巴拉卡(3)第126章 別開生面的員工見面會(下)第289章 緋聞事件第211章 非洲之行(7)第734章 大西洋幽靈第一百四五十三章 海外併購6第273章 拒絕第610章 突破第124章 別開生面的員工見面會(上)第31章 億元大訂單(上)第599章 不戰而屈人之兵(上)第806章 轉機第249章 後門第593章 以牙還牙第672章 奪島(7)第608章 風雲變幻第693章 殺機第457章 新晉首富第282章 新格局第167章 基地建設(1)第250章 翻譯器問題第317章 逼供第811章 偷襲計劃第507章 貓和鼠遊戲(12)第822章 求和第493章 馬特的進展和野望(上)第821章 聖誕攻勢第106章 秒殺第465章 智能汽車(二)第666章 奪島(1)第183章 計劃和閒話第286章 交換條件第182章 移植難題第779章 攬過第575章 對策(上)第752章 投靠第一百四五十四章 全a雙博士第77章 大黃蜂的誘惑第241章 小人物的悲哀和幸運(中)第327章 重挫第183章 計劃和閒話第257章 誰上市?第574章 震懾天下第77章 大黃蜂的誘惑第402章 不惜一戰第456章 天狼星上市第546章 巨大反響第185章 打擊和期望第738章 波斯變局第212章 非洲之行(8)第23章 人財倆缺的日子第385章 一線光明第165章 夢幻團隊第700章 新方案第771章 血戰巴拉卡(1)第362章 靠山(中)第11章 分手不必在雨天第519章 終結者計劃第642章 大決戰(14)第442章 獵鷹計劃(一)第227章 再造亮點第740章 營救