第十六章 論壇定製

此時文琦要是能夠打開“蜜蜂輸入法熱q江湖專用版詞庫。myword”,看到裡面的詞組內容的話,他就會明白爲什麼這款蜜蜂輸入****是那麼地“懂他”——在這份詞庫文件裡面,有大量他自己在《熱q江湖》論壇經常使用的句子和詞語!

不過可惜,不像是zip文件簡單改名的skin皮膚文件,馬競對myword詞庫文件進行了嚴格地壓縮加密。這麼做原本是爲了壓縮文本文件大小,方便作爲附件上傳到論壇,不過卻也歪打正着地保護了蜜蜂輸入法的秘密。

隨後文琦就在這個帖子後面的跟帖裡面發現了好多熟悉的id,一個個論壇水王紛紛表示這款蜜蜂輸入法論壇專版實在是太神奇了,非常地“懂他”,按一兩個字母就能把自己想說的話都打出來,實在是太棒了!

“爲什麼你們那些水王都覺得這款蜜蜂輸入法非常好用?秘密全在那個論壇專用版詞庫上面,它裡面應該是把你們經常在論壇上使用的句子都收納進去了,所以纔會按幾個字母就會出你的常用句子。”——曉曉小生

很快就有知識帝出來進行科普了,文琦看到這裡也是輕輕點頭,覺得這位論壇百曉生果然沒有說錯。

再給這篇帖子加精華以後,文琦關閉了《熱q江湖》論壇頁面,登錄了學校的校園bbs,然後第一眼就看見了被頂到置頂帖之下第一位的那個帖子。

標題:《江大學子必備,蜜蜂輸入法江大專版》,點擊數157,回覆102,發帖時間2006-03-18-13:07:56。

“居然發到這兒來了?”帶着疑惑文琦點擊進入這個帖子,發現內容和他之前在《熱q江湖》論壇看到的內容基本上一致,差不多隻是把“熱q江湖”四個字提換成“江x大學”,然後皮膚預覽圖換成帶有校徽、院徽圖案的“江大專用皮膚”,相應的輸入效果圖也換成在校園bbs、校圖書館兩個網頁上面的輸入效果圖片了。

文琦點擊下載了,“蜜蜂輸入法江大專用版。zip”,把裡面的詞庫和皮膚文件解壓出來安裝上。然後在輸入框裡面打字,他發現果然多了不少江大的專用詞彙:校名院名系名班名、課程名、教科書名,都是不用打完完整拼音就出現在了候選詞裡面。

文琦試着打班級輔導員的名字簡稱gxy,也立即看到“顧學玉”三個字出現在候選詞裡面。

想到曉曉小生的分析,文琦試着輸入wq,果然看到“文琦”出現在候選詞列表裡面,再試班上同學的名字,也都能找到。

文琦毫不懷疑,這份“蜜蜂輸入法江大專用版詞庫”裡面一定喪心病狂地把全校師生上萬名字放了進去。

其實他想的簡單了,江大專用詞庫裡面包含的人名超過十萬!不僅包括現在在校的全體師生,而且很多過往任教的老師、歷屆畢業校友的名字也都在裡面,不過他們的詞頻很低,打簡拼時候選詞太多一般要翻頁好多次才能看到。輸入他們姓名的全拼,纔可以更快地看到他們的名字。

這些名字都是從江大校園網內各級服務器上面蒐集來的,因爲江大校園bbs的域名是掛靠在江大的jtu。edu。cn域名下的二級域名,導致蜜蜂發佈器順帶着把整個jtu。edu。cn網站進行了全站下載。

得益於江大力行無紙化辦公,校內各種檔案都有電子版,讓馬競的“蜜蜂發佈器”很輕鬆地就蒐集了大量文本文件,然後提取出了人名和高頻詞、高頻字,然後打包成江大專用詞庫。

而且當這些人名出現在候選詞列表裡面時,它們的顏色還與別人大不一樣的,男生名字的姓都是藍色,女生的姓都是紅色,有男有女的名字則全是綠色。同時本校人的名字下面還會有淺淺一道背景色,顏色與其所在院徽或者校徽的顏色一致。像是文琦就發現自己班所有人名字下面都有淺藍的底色,而一起上高數課認識的理學院同學的名字下面就是淺紫色的,他女友的名字下面有淺紅色背景,那是外語學院的院徽顏色。

這些特殊的標記,都是源自江大詞庫,馬競版的詞庫不只是單純的根據詞頻排序的文本文件,其中還有簡單的關係數據庫的內容。像是“文琦”這個名字,就會和“男”、“能源與動力工程學院”、“核工41班”等詞語發生關聯,而“能源與動力工程學院”又會與“能動學院”、“能動學院院徽”、趙祺(能動學院院長)等詞語發生關聯。

傳統的詞頻排序算法,只能根據詞語累計輸入次數與詞語最近輸入時間這兩個數據調整候選詞排序,而蜜蜂輸入法引入的這些關聯數據可以大大補充單純詞頻排序算法的不足,使得蜜蜂輸入法的輸入效果更加智能更加方便。

在0。9公測版的蜜蜂輸入法裡面,關係排序算法就被應用到人名候選詞的排序裡面。

文琦試着打班上同學名字時,發現幾個姓李姓劉的同學,名字也不需要翻頁,在一大堆劉xx、李xx的候選詞裡面排名非常靠前。其原理就是蜜蜂輸入法的關係排序算法,這些同學和他一個班,都和“能源與動力工程學院”、“核工41班”兩個詞發生關聯,所以詞序被大大提高,也擁有同樣的背景色。

其實學生名字的背景色是經過特殊算法嚴重變形的院徽圖片,完全看不出校徽的形狀,只剩下平均色。只有安裝了“蜜蜂輸入法江大專用版皮膚套裝。skin”文件,取得裡面的校徽圖標素材,輸入法纔會在學生和老師名字下面放置校徽色標記。當然,沒有安裝江大專用詞庫的話,輸入法雖然會根據自動生成的關係數據庫放置校徽色標記以及其他標記,但是出錯率就要高很多了。

因爲是全自動收集整理生成,並且使用了一些暴力破解密碼的手段,這個詞庫裡面其實是包含了一些江大的秘密信息的,比如校長會議的會議記錄以及一些還未公佈的文件的部分內容等。但是因爲詞庫經過詞頻排序,那些秘密信息通常都很少在文件上出現,詞頻很低,並不容易被人發現,因此也沒引起他人注意,馬競自己也並不知道還有這樣的問題。

還要到今年暑期招生的時候,有人發現個別新生的名字可以輕鬆打出,並且顯示樣式也是本校人,不過那人並沒有深究,只是將這件事作爲趣事放到校園bbs上面。

這幾張截圖後來被有心人看到,分析認爲那些被三月份過期江大詞庫標記爲本校人的新生,應該是學校內部招生的結果,由此還引發了一次被稱爲“江大內部招生門”的醜聞事件。

當然,在江大校方看來,則是泄密事件,甚至一度發文禁用蜜蜂輸入法,江大計算機管理中心一度還封堵了蜜蜂輸入法的升級端口。

不過那時候馬競已經升級了蜜蜂輸入法,對用戶詞庫進行了整理,一些詞頻極低的非用戶自創詞被自動清理掉了。同時源自保密文件的一些內容也被刪除了,封殺事件最後也就不了了之了,反倒是因爲封殺事件使得蜜蜂輸入法在江大校園裡面知名度大增,更加流行了。

第一千三百六十四章 去了火星吃什麼第748章 有人在飆車第796章 視野第1051章 可惜了第一千一百十七章 老少第331章 狗臉事件第829章 污力泰迪第239章 電腦第449章 空中咖啡第482章 後怕第一千四百四十六章 6月的主題第一千五百十八章 趕工第495章 馬元康第678章 男人的房間第一千二百九十三章 綠萊第一千五百三十九章 有個洋和尚第445章 乾了這杯回籠湯第765章 換人第321章 買櫝送刀第903章 划算第一千三百九十章 大鏡子第210章 紫禁城戰場第一千四百四十章 巨像第963章 進擊的蝴蝶第712章 騙你咯第323章 說客第836章 轉移視線第一千二百四十一章 我去買個橘子第904章 棒子老虎雞第一千五百六十七章 最佳代言第787章 急雨第一千四百九十五章 跑馬第888章 順藤摸瓜第459章 萌主不好當第一千三百七十八章 老本行第776章 太少了第985章 晨光第621章 套路啊套路第682章 海陸空第一千零九十章 見面會第一千三百八十五章 足球啓蒙第805章 手機遊戲第907章 唐僧肉第428章 馬府家宴第一千四百二十六章 墨家有彈簧第333章 三月第547章 要優雅第一千四百三十九章 蒙古寶寶第316章 女俠請留步第951章 聖丹斯第207章 養蜂人第626章 老熟人第658章 好奇第1062章 蜜蜂森林第960章 親戚們第955章 4K第573章 第九菜系之爭第一千二百三十九章 混亂之晨第一百一十八章 學姐第474章 亮相第一千四百零九章 新世界的大門第一千一百八十四章 我最閃亮第一千三百五十九章 過年當然少不了熊孩子第一千零八十一章 獨家技術第1070章 西部影都第910章 如臨大敵第一千二百五十九章 田間第485章 加了特技的特技第483章 小飛機第一千一百七十三章 套路連環第一千四百零六章 螞蟻的幸運第663章 首映式上的小紅帽第十七章 快速蔓延第409章 視頻第285章 鬧劇第308章 八卦第543章 超級民工第一千五百章 小島假期第526章 授褲儀式第一千一百八十六章 功夫在戲外第628章 路上第710章 貪心第766章 星辰和大海第一千一百九十九章 搞個大新聞第一千一百零九章 興趣轉移第一千一百二十七章 天堂沒有颶風第213章 泡泡第四十四章 世界真的很小第578章 在德國第一千三百二十三章 千年功力灌注第521章 懶惰使人進步第一千一百九十六章 隊歌第一千零九十五章 主題酒店第337章 私人消息第三十四章 U盤殺毒第1058章 奇女子第一千三百零六章 長頸鹿貿易第一千四百三十九章 蒙古寶寶第712章 騙你咯第一千一百十五章 好隊友