第400章 不可逾越的高山

江寒在網上搜索了一番,參考了一下同類軟件。

最後他決定,採用市場接受度較高的免費下載、試用模式。

超過試用次數和時間後,只要花費58元RMB,購買註冊碼,就可以終身使用。

在軟件保護策略上,江寒毫不猶豫地啓動了“壞蘋果2代”技術。

經過加密後,“極光OCR”的可執行文件,以及動態鏈接庫等要害部位,堪稱堅不可摧。

江寒又用InstallShield Wizard,製作出一個1G大小的安裝包,然後掛到了大江官網上。

技術上的事情,至此全部搞定。

至於其他的事情,全盤委託給老江和夏如冰就好……

江寒想了想,又訪問了一下佈置在地下機房裡的數據服務器。

過了這麼多天,他爲ISLVRC2013圖像識別挑戰賽,打造的深度CNN網絡,也終於完成了訓練。

江寒將代碼中關於訓練的部分,暫時全部剔除,然後將驗證集數據加載進來,跑了一下。

結果還算不錯, top-1項目的識別正確率,達到了62.7%, top-5項目中,更是達到了85.4%的正確率。

所謂top-1,就是對於每張要分類的圖片,只允許給出唯一答案,對就對,錯就錯。

至於top-5,要求就比較寬鬆了,每張圖可以給出5種預測,有一個與標籤相同,就算分類正確。

現在這個成績,已經相當接近去年的冠軍算法了。

但江寒怎麼可能就此滿足呢?

他深入思考了一番,重新編寫了預測函數。

這一次,他使用了一個小技巧。

將待分類的圖片加載到內存中之後,先進行預處理。

從圖片的四個角,以及中間部分,依次進行矩形摳圖,這樣就得到了5張子圖片。

接下來,再對這5張子圖片,依次進行鏡像操作,子圖片的總數就變成了10。

最後再對這10張圖片,分別進行預測,再把10個結果的平均值,作爲網絡的最後輸出。

這可以有效地防止程序“發呆”,以得到更接近正確答案的預測。

不出所料,使用了這個技巧後,深度CNN在驗證集上的表現,果然改善了不少。

top-1上的正確率,足足提高了2%,在top-5上的正確率,也提高了1.84%。

不過,感覺還有進一步提升的空間。

江寒思考了一下,又對訓練集圖片的RGB數值,做了PCA,也就是主成分分析,並且對主成分做了0.1標準差的高斯擾動。

這樣做的目的,是增加一些噪聲數據,以提高模型的泛化能力。

處理完龐大的訓練集後,就可以讓網絡重新進行訓練了。

安排妥當這件事之後,江寒開始考慮學科等級的事情。

經過幾天的奮戰,他已經學完了化學、生物兩科,在大學本科階段的全部專業課。

單論理論上的水平,超過了絕大多數相應科目的本科生、甚至碩士研究生。

江寒打開系統UI看了一眼。

學科等級面板上,數學、物理、化學、生物、信息學,這五個學科全都達到了高級。

其中,信息學的經驗條已經過半,距離下一個級別不遠了。

不過,工程、材料、能源三科,仍然沒有任何評級。

江寒思考了一下,決定在網上找一找這三個專業的教材,深入地學習一番。

然而,他很快就發現了一個問題。

所謂的工程,到底是什麼工程呢?

生物工程也是工程,電子工程也是工程。

此外還有機械工程、信息工程、採礦工程、石油工程、建築工程……

不搜不知道,一搜嚇一跳,工程學這個總類裡,居然足足包括了21個小類,上百個專業!

然後是材料學。

化學材料、生物材料、金屬材料、電工材料、材料物理……

也是幾乎無所不包!

能源好一些,基本也就是引力能、熱能、生物能、化學能、核能……

好吧,既然都是交叉學科,那就交叉着學唄。

江寒上網查找了一下,將所有涉及到這三科的書籍,彙總、整理了一下,列出了一張非常長的書單。

真的很長,足足有上千種書籍。

好在其中大多數,都能下載到PDF或者Ebook資源。

江寒將這些文件,全都用極光OCR,轉換成了txt加小圖片的格式,然後輪流發送到了虛擬空間中,並打印了出來。

也有部分資料,網上根本下載不到,這種情況,就只能郵購實體書了。

江寒在各大網上書店裡,一頓狠淘,終於湊全了列表中的所有書籍。

至於花了多少錢,他也沒仔細統計,大概估計下,怎麼也得幾萬RMB。

也就是本科階段的教材並不怎麼難買,很多專業性很強的資料也都有中文版。

若是去亞馬遜海淘英文原版,估計再添一個0,可能都不怎麼夠……

※※※

有圖科技,軟件研發部。

藍嶄新再次主持會議。

與會的十來個人,全都陷入了死一般的沉寂。

良久後,藍戰新嘆了口氣:“這件事問題不在咱們,你們開發的OCR軟件,已經是國內領先的了……”

後面的話,他雖然沒說,可又有誰猜不到了?

那家大江科技,雖然成立還不到一週……

然而,誰能想到這家公司手中,竟掌握着那麼厲害的OCR技術呢?

王仁默然不語。

那個極光OCR的性能,實在太恐怖了一點,對於普通文本的識別正確率,竟然超過了98%!

這種技術代差,真是讓人越想越渾身無力。

國內外的同類軟件,沒有一個能與之競爭。

不誇張地說,這就是集體被吊打,一點還手之力都沒有……

藍戰新忽然問:“王工,你們技術部有沒有試一試,逆向一下極光OCR?”

王仁苦着臉,回答說:“我們一發現這款產品,第一時間就下載並嘗試逆向了。”

代碼雖然不能抄,至少也應該瞭解一下別人採用的算法……

王仁續道:“只可惜……試了很多辦法,全都失敗了。”

藍戰新有點意外。

王仁這些人的實力,他是十分清楚的,能難住他們的加密手段,可謂少之又少。

另一位同事搖了搖頭,說:“我們都懷疑,那是一種從來沒出現過的新加密技術。”

藍戰新若有所思:“這樣啊……”

寂靜再一次籠罩了這個房間。

良久後。

“咱們接下來怎麼辦?”一名工程師問。

藍戰新思索了一下,嘆了口氣,說:“我先彙報一下,看看顧總怎麼說。”

十五分鐘後。

“我知道了……”

藍戰新掛了電話,掃視了在座的衆人一眼:“我先嚐試和大江的人聯繫一下,看有沒有達成合作的可能。”

有圖的主要業務是賣硬件,爲了促進掃描儀的銷售,纔去研發配套的OCR軟件。

既然自家研發的OCR,性能上比不上別人,那爭取合作、取長補短,也在情理之中。

如果可以達成獨家代理,那麼無論多少錢,都一定要拿下來!

這是顧總的原話。

藍戰新看向王仁:“至於咱們研發部,還得繼續努力研發下一代產品。”

頓了頓:“至於目標……暫時先跟極光OCR看齊吧!”

在場幾位技術大拿的心頭,頓時感覺沉甸甸的。

98%!

這個數字,就彷彿一座不可逾越的高山……

※※※

兩天後,深度CNN網絡再次完成了訓練。

江寒重新跑了一次驗證集,這一次,錯誤率在原來的基礎上,又下降了1%以上。

top-1的正確率接近樂66%,而在top-5項目中,更是達到了驚人的88.8%!

江寒對這個成績還算滿意,給這個網絡命名爲:“JiangNet -3”。

然後登錄ImageNet官網,將最終的算法模型提交了上去。

他沒有對代碼進行加密,一個是賽事規則不允許,再一個也是沒有必要。

提交上去的代碼和數據,只包含網絡主體架構、激活函數、預測函數,以及訓練得到的權重數據。

至於算法的核心部分,訓練函數、損失函數和梯度下降……一概予以刪除。

這樣的代碼,根本沒有什麼可以抄的。

搞定了這件事後,江寒將目光放在了書桌上。

從昨天開始,網購的實體書就陸續快遞到了手中。

到了今天下午,終於到齊了。

看着那高高一堆,上百本書籍,他不禁有點頭疼。

看書不費力氣,一本一本慢慢看,兩、三個月怎麼也看完了。

但如果想加快學習進度,就得把這些實體書,全都折騰到虛擬空間裡……

第14章 別帶壞了江寒第148章 到底什麼意思?第43章 寫字機器人第61章 記憶和遺忘的生物學原理第369章 點八個,贈十個……第126章 八樓的直升飛機第281章 當場搶人第297章 Py大法威力無窮第130章 大佬和小蘿莉第372章 卷積神經網絡第114章 收音機,以及1:10?第1章 一夜回到十年前第181章 無監督學習和SOM第428章 Hack Me的獎品第334章 比鬧鐘更早第126章 八樓的直升飛機第245章 什麼事兒比NOIP還重要?第329章 拋棄框架,從零開始造輪子第389章 誠信友善,和諧友愛第253章 不幸猜中了第309章 天賦異稟,出生太晚第36章 家宴第191章 好像只能擠一擠了第70章 水上公園第327章 雨雪交加、霏雯相對第181章 無監督學習和SOM第158章 查崗?第180章 想謙虛都沒地方謙虛第22章 名偵探婉瑩第20章 寫論文第360章 造了什麼孽?第377章 打造自己的科技品牌第324章 如果是江寒哥哥的話……第344章 好險間接那個啥第427章 詭異的附加關卡第242章 搞出問題怎麼辦?第363章 終於對《我的世界》下手了……第397章 作曲大師,自帶乾糧第429章 阿法狗的三板斧第247章 對拍、Day1第三題第387章 打印機和繪圖儀第235章 有所不爲、有所必爲第375章 沒有操作系統怎麼辦?第44章 瞎子分牌問題第360章 造了什麼孽?第308章 敬可愛又無常的命運第1章 一夜回到十年前第357章 再給你一次機會第194章 睡不着怎麼辦?第409章 晨曦III巨型計算機第287章 夢裡不知身是客第72章 玩不起第295章 全世界沒人教得了第364章 徑向基神經網絡第222章 《Adaline網絡》和《最小均方濾波器(LMS)》第226章 還能剩下幾個?第332章 大功告成,樂不思蜀第38章 賣歌第275章 整整齊齊、更高更遠第16章 倔強的夏雨菲第313章 “僱傭兵”與“香餌”第221章 超級大腦,人傑地靈第352章 有了一個小助手第265章 羨慕使人質壁分離第4章 萬界爬蟲系統第238章 競爭對手?第278章 Root Me,Hack Me第231章 水漫金山第260章 這可是B5啊!第428章 Hack Me的獎品第66章 審覈過程第363章 終於對《我的世界》下手了……第161章 論腦補,只服你第87章 夜話第23章 震驚商城,開啓!第114章 收音機,以及1:10?第41章 要是不帥不酷呢?第370章 四軸飛行器第293章 精誠所致,金石爲開?第428章 Hack Me的獎品第218章 爲人實在,夠給面子第335章 不走尋常路第234章 恐高症第383章 全自動刷分第142章 哪捨得叫你疊被鋪牀?第258章 學霸的畫風,都是這麼清奇的嗎?第122章 騙過多少女孩子?第200章 真的只是惡作劇嗎?第407章 科幻片,恐怖片?第236章 意志堅強,沒有毛病第69章 論如何追女孩紙第70章 水上公園第112章 圖紙和垃圾桶第146章 給你個眼神自己領會第376章 很像一臺成熟的計算機了第73章 臭屁不過金少樓第213章 橫生枝節第91章 這麼忙嗎?第105章 寶藏男孩