呻吟聲也通!最強「AI鑑黃師」上線 一日過濾億張色情圖
▲阿里巴巴集團公佈「AI鑑黃」技術,透過演算法過濾色情圖片。(圖/翻攝自環球網)
阿里巴巴集團安全部日前公佈最新的「AI鑑黃」技術,透過演算法過濾每天上億張可能涉及色情的圖片,可提升2000倍的效率,減少「人工鑑黃師」人力的需求、提高鑑別準確度。近期已經上線公測,語音、影片等多媒體領域,並支援中文、英文、日文和俄文等多國語言,甚至無語義的呻吟聲也能識別。
根據澎湃新聞報導,如果一天要審覈4億張圖片,單純以人工進行,每人一天審1萬張,就需要4萬人。透過「AI鑑黃」後,交給人工審覈的數量大概剩20萬張,只需要20人就能完成相同的工作,整體提升2000倍的效率,大大節省人力。
▲「AI鑑黃」認爲是色情的圖片。(圖/翻攝自澎湃新聞)
阿里巴巴的鑑黃AI原理,是將圖像分類,在標註樣本後使用深度學習技術訓練人工神經網絡,步驟爲分類標準、收集樣本、樣本打標,最後是模型訓練,其中前三個步驟是人工完成,而花最久時間的是第一步。相關人士透露,「露點不露點」之類的色情,就有比較明確的判斷標準,但對於低俗和性感類的爭議就比較多。以兒童色情爲例,兒童露點發生在男孩和女孩的結果有別,不同年齡、發育也可能在模糊邊緣。
AI鑑黃團隊在收集樣本的過程中要「集思廣益」,瀏覽了近2000家網站,下載超過6000萬張疑似色情的圖片,採用約2300萬張圖片,最後實際標註超過1300萬張圖片。這1300多萬張圖片就是類比訓練的原始資料庫,因此這一浩大的工程,被技術人員認爲是「鑑黃引擎」成功最重要的基石。
▲「AI鑑黃」認爲是色情的圖片。(圖/翻攝自澎湃新聞)
儘管AI讓鑑黃的效率大幅提升,但帶有主觀個人意識或者羣體意識等模棱兩可的場景,是人工審覈不會被取代的原因。阿里巴巴安全部產品專家念夏表示,已知、有清晰標準定義的,AI都能解決;真正的難點是惡意的突發事件,由於之前對該事件或場景缺乏標準的定義,交給AI及時處理是不可能的,目前AI鑑黃最好的應用模式還是人工加上機器。