第53章 大功告成

不過,在跑代碼之前,還要對數據進行預處理。

江寒先從報名信息表中,將性別信息仍然“健在”的行挑出來,只保留序號、姓名和性別,另存爲label.xls。

這些記錄一共9527條,大約佔三萬多條數據總數的30%。

它們對應着9527張真彩色照片。

24位真彩色的圖片,每個像素點在內存裡,要佔用3個字節的存儲單元。

每張照片有210×120個像素,這樣讀入一張照片,需要的內存空間就是210×120×3=75600個Byte。

9527條數據,共需要9527×75600=720241200B≈686.88M≈0.7G!

這個內存開銷,還是比較容易接受的。

但是,“感知機”的算法,需要進行大量浮點乘法運算。

對每個像素的每個RGB分量都算一遍?

沒那個必要,也太浪費時間。

所以,聰明的做法,是先把照片數據“壓縮”一下。

江寒給“感知機”的代碼,添加了一個LoadData函數,用來讀取和處理照片數據。

在這個函數裡,先定義一個二維的整形數組Feature。

然後從label.xls中讀出序號、姓名信息,按照剛纔建立的索引表,找到對應的照片文件。

下一步,將照片讀取到內存中,讀取的同時,將每個像素二值化。

具體做法是:色彩濃度在閾值以上的像素,取值爲1,低於閾值就讓它爲0。

這樣一來,原本的真彩色照片,就被轉換成了黑白輪廓圖。

然後,再將輪廓圖中的0或者1的取值,按照從左到右、從上到下的順序,重新編排成一行數據,存放到數組Feature中。

Feature中的每一行,都存儲了一張照片的二值化信息。

一共9527張照片,就需要9527行。

全部照片處理完畢後,就得到了一個巨大的二維數組Feature。

它有25200列、9527行。

接下來,定義一個擁有9527個整形元素的一維數組Label。

從label.xls中讀入性別信息,男生設爲1,女生設爲0,存放在數組Label中。

Feature加上對應的Label,就構成了訓練數據集。

訓練“感知機”時,將一行行Feature代入公式中,進行加權和運算,其結果再通過sign函數,轉換爲0或1,然後和對應的Label值對照。

如果不相符,就調整權重和偏置,然後重新計算。

當每一個Feature代入公式後,都能計算出正確的Label時,就得到了一組權重和偏置。

也就是說,構建出了一個可用的數學模型。

依據這個模型,計算機就可以讀入任何一張同尺寸、類型的照片,對其二值化的數據代入模型中運算,並根據運算結果判斷分類歸屬。

這就是典型的機器學習過程,計算機從數據中自己“學”到了某種規律。

即使這種規律,人類並不一定完全理解,也不見得能用數學語言解釋清楚……

剩下的就比較簡單了。

接下來,江寒又添加了幾個函數,用來輸出運算結果、觀察運行情況等。

最後,從頭調試了一遍,確認沒啥bug後,將代碼重新編譯,然後運行了起來。

屏幕上有一些數字,表示當前正在處理的數據,和訓練進度的百分比。

十分鐘後,後一個數字纔剛剛達到1.3%。

這表示,完整訓練一遍,大約需要13個小時……

之所以這麼慢,主要是江寒的程序,比較追求穩定性,以及調試的方便、快捷,並沒特別講究執行效率。

當然,即使他用心優化,估計也需要8個小時以上,才能完成訓練。

雖然有點慢,但其實沒什麼關係,訓練過程並不需要人工干預,掛機等着就行。

第二天早晨,江寒起牀後,先看了下訓練進度,還差了大約13%才能完成,就先去班級上課。

中午吃完飯回來,訓練終於結束了。

而存放權重和偏置參數的Weight數組,也以內存映像的方式,保存在了一個二進制文件中。

接下來就簡單了。

重建一個一模一樣的感知機模型,加載上這個權重文件,就可以用它來判斷剩餘照片的性別了。

江寒重新改寫代碼,然後運行。

這次十分迅速,只用了不到20分鐘,就將兩萬一千來張照片,全部處理完畢。

這就是“感知機”,或者說“人工神經網絡”的特點。

訓練起來特別耗時,一旦訓練完成,工作起來非常快捷。

至於正確率,江寒初步估計,大大超過99%,21000條未經訓練的數據裡,判斷出錯的,絕不超過10人。

比人類肉眼的識別率低不到哪裡去。

事實上,“感知機”或者說“人工神經網絡”的錯誤率,跟訓練數據、測試數據的質量有很大關係。

如果比較規範,達到100%的識別率都不算稀奇。

可惜實際運用中,總有個別實例,奇葩得超乎想象。

有的時候,人類都幾乎無法識別!

根據老高的說法,這區區幾個錯誤的,可以在把名單下達到各校後,根據反饋修改一下就行。

如果沒有這個託底,就沒法使用“感知機”,因爲沒辦法判斷,哪些人被誤分類了……

得到了全部照片的性別數據後,江寒將其粘貼到了《報名信息表》中。

大功告成後,江寒沒急着找高老師覆命。

這麼快就搞定,老高肯定會十分震驚,然後追問前因後果。

“感知機”解釋起來太費勁,而且也沒那麼高大上,還用不着見人就推銷。

關鍵老高一個人貢獻的那點震驚值,江寒現在已經有點看不上眼了。

休息了一會兒後,江寒就拿着《noip通關寶典》,回班級繼續刷題。

※※※※※

“槓上開”是一個營銷號主。

什麼是營銷號?

百科上說,一般是指組織機構或者個人對外宣傳散發信息所用的賬號,具有目的性,一般是用來宣傳產品或服務的。

狹義上說,就是純粹以賺錢爲目的,專門在各大視頻站上傳垃圾內容的人。

內容粗製濫造?那是基本操作;

虛假宣傳和科普?那是日常作業;

動不動危言聳聽、各種震驚?這根本就不算事兒。

沒事兒噹噹水軍,引導引導輿論,纔是他們的主要業務。

反正很多事情,很多人既不瞭解,也不具備判別能力,還不是哪邊人多信哪邊……

你說網友們義憤填膺?

上面都不管,網友算老幾,錢到手纔是真的。

爲什麼網站不整治?

一個是很難區分,容易誤傷正常的up主;

再一個,網站跟流量什麼仇、什麼怨……

“槓上開”就是這樣一個營銷號,每天出沒於各個視頻站,P站算是他最重要的基本盤。

他最常做的,就是接受客戶的委託,然後不擇手段地完成任務。

視頻網站給的那點補貼,他根本沒放在眼裡,客戶的賞金纔是大頭。

今天,他做完“作業”,上傳完幾個視頻,然後隨便在P站逛了一會兒。

忽然,一個點擊、投幣超高的視頻,躍入了眼簾。

本月熱門?

“槓上開”來了點興趣。

仔細一看標題,頓時有點無語。

《舊光驅改造寫字機器人》……真夠誇張的,你怎麼不改造成航母呢?

不過,好奇之下,他還是點開了視頻,看了一眼。

結果,一看之下,他瞬間就驚呆了。

臥槽,還真是個高手,這動手能力有點逆天了。

本着一個營銷號的職業精神,“槓上開”感到了一種久違的使命感。

必須做點什麼。

沒錯,這麼有創意的視頻,不盜上一把,他簡直渾身藍瘦!

不過,簡單的重發是不行的,網站的審覈員職位,也不是白設置的。

所以,還需要用點技巧,稍微加工、處理一下……

第150章 全+1!第403章 家產億萬,平平無奇第14章 別帶壞了江寒第174章 良心工作室第417章 江寒的圍棋水平第137章 聽鬆小院,好地方?第255章 調整超參數,以及防止過擬合第148章 到底什麼意思?第219章 點到爲止第402章 讀書之樂,臨行之前第270章 夏如冰的遭遇第286章 破解壞蘋果第426章 坦白從寬,回家過節。第44章 瞎子分牌問題第332章 大功告成,樂不思蜀第269章 易中海的困境第66章 審覈過程第114章 收音機,以及1:10?第379章 似真似幻,恍如隔世第399章 此一時,彼一時第59章 上乾貨第234章 恐高症第173章 磨刀不誤砍柴工第415章 滿分入選國家隊第118章 《如何高效判斷數據是否線性可分》第147章 有點深奧啊第263章 一切都在算計中第259章 江寒的秘奧義第92章 《激光雕刻機》第366章 微服私訪?第120章 《數字混淆加密(簡易版)》第39章 這可能是個誤會第217章 超級粉絲第423章 超算和MPP架構第152章 你的承諾呢?第425章 街頭象棋第319章 那年,那個女孩兒第296章 攪動風雲第180章 想謙虛都沒地方謙虛第296章 攪動風雲第152章 你的承諾呢?第377章 打造自己的科技品牌第146章 給你個眼神自己領會第290章 其實已經有點過時了第69章 論如何追女孩紙第116章 要節制一點了第276章 丟1分和拿滿分,哪個更難?第335章 長痛不如短痛第230章 萬物皆可“壞蘋果”第310章 唯一的破綻第245章 什麼事兒比NOIP還重要?第398章 商用級手寫識別算法第76章 還有什麼是他不會的?第411章 不可不防,防不勝防第151章 那就別走了第342章 蛇皮走位,初現鋒芒第123章 BT小鳥第166章 意外的變化第219章 點到爲止第317章 爲什麼偏偏是那串數字?第181章 無監督學習和SOM第136章 打造算術邏輯單元第64章 渣男第32章 借MacBook一用第263章 一切都在算計中第302章 聳人聽聞,觸目驚心第173章 磨刀不誤砍柴工第424章 又一個冠軍到手第75章 金少樓的警告第320章 法無禁止即可爲第251章 特效藥第63章 巧嗎?第380章 買豬頭不要肉第324章 如果是江寒哥哥的話……第62章 校長的鼓勵第94章 水論文的正確姿勢第393章 男人不能沒有事業第384章 把知識“安裝”到大腦裡第186章 有我七成功力了第167章 提醒還是邀請?第55章 委託第285章 “彈性碰撞”第375章 沒有操作系統怎麼辦?第250章 幸虧有雙保險第232章 江寒的野望第101章 偷換概念第328章 脣槍舌劍,物我兩忘第138章 避蚊胺,登山第302章 聳人聽聞,觸目驚心第417章 江寒的圍棋水平第171章 蘇婉瑩的秘密第4章 萬界爬蟲系統第10章 給老江打個電話第263章 一切都在算計中第189章 查房第110章 敲竹槓第142章 哪捨得叫你疊被鋪牀?第386章 測量“虛擬空間”的曲率第313章 “僱傭兵”與“香餌”第334章 比鬧鐘更早