給AI系統做“安全體檢” 阿里發佈自動化AI對抗平臺

安全人員曾爲自動駕駛系統做過一次安全測試,用物理對抗攻擊欺騙Autopilot車道檢測系統,導致汽車在Autopilot不發出警告情況下駛入錯誤車道。假如這是一場真實的攻擊,後果不堪設想。事實上,AI系統如果沒有足夠的“免疫力”,甚至會被一張圖片欺騙,如將停車標誌識別爲通行,在醫療應用中將問題的醫療影像識別爲正常圖像等。

爲幫助AI應用從源頭構建安全性,阿里安全圖靈實驗整理歸納了學界針對AI模型提出的32種攻擊方法,以此爲基礎搭建了一個自動化AI對抗攻擊平臺CAA,幫助檢測AI系統存在的安全漏洞

經CAA“體檢”後,AI安全專家可針對被檢測AI的薄弱地帶提出安全建議助力AI魯棒性穩定性)檢測,以此增強AI系統的安全性,近日,該研究成果人工智能頂會AAAI2021接收。

相比業界此前提出的其他攻擊工具箱,阿里圖靈實驗室研發的自動化對抗攻擊平臺CAA首度實現了對抗攻擊的“工具化”。它讓AI應用的使用者即使不具備任何專業領域知識的情況下,也可以進行AI模型的對抗攻擊和魯棒性測試。

此外,CAA還可預先評估待檢測AI的特性,通過自動化搜索技術來合成多個攻擊算法的組合,提升了現有模型攻擊方法的性能效率。阿里安全專家通過實驗表明,CAA超越了最新提出的攻擊方法,是可有效評估當前AI系統安全性的最強“攻擊”。

圖示:阿里安全提出的自動化對抗攻擊平臺CAA運行示意圖

以事前“攻擊演練”檢測AI系統的安全性,是當前提升安全AI的有效方法,也是阿里提出新一代安全架構,從源頭構建安全的核心理念。但如果不知道目標模型的防禦細節研究者通常很難根據經驗選擇到對當前模型最優的攻擊算法,從而難以驗證“體檢”的真實效果

阿里安全圖靈實驗室算法專家簫瘋表示,阿里安全首次提出將智能技術引入到對抗攻擊中,使得所有攻擊細節和參數作爲一個黑箱,而攻擊者只需要提供目標模型和數據,算法就會自動選擇最優的攻擊組合和參數。

以AI體檢AI,以AI訓練AI。蕭瘋認爲,對識別黃、賭、毒等不良內容的安全檢測AI而言,模型可靠性和魯棒性顯得尤爲重要。目前,在鑑黃算法上,圖靈實驗室正在藉此技術方法提升曝光、模糊、低畫質極端分類場景下的模型識別能力,並且逐漸提升模型在極端場景下的魯棒性,爲業界提供更安全可靠的AI算法能力。