收集用戶數據訓練AI再觸發監管,Meta暫停行動

21世紀經濟報道記者肖瀟 北京報道

本週Meta宣佈,暫停使用歐盟和英國用戶的數據訓練AI,並推遲在歐洲推出自己的大模型。

愛爾蘭、英國、挪威等多國監管機構認領,公司此舉是迴應監管機構的要求。挪威數據保護機構稱,Meta向它們承諾暫停使用 Facebook 和 Instagram 上的帖子和圖片來訓練大模型,目前不確定會推遲多長時間,正在與其他歐盟國家的監管機構一同討論。

Meta收集用戶數據的計劃開始於上個月,平臺通知歐洲用戶將在6月底正式啓動新的隱私政策:公司將使用Facebook 和 Instagram上的公開內容來訓練大模型,包括互動內容、狀態、照片和標題,不包括私人間聊天記錄和未成年人賬戶信息。更新的隱私政策引發了反對,奧地利非營利機構組織NOYB當即向11個歐盟成員國分別提起投訴,請求啓動緊急程序。

爭議並非孤例,如何向用戶要到數據授權來訓練AI,是擺在所有互聯網公司面前的一道難題,公司不僅僅要拿捏好合規尺度,還需要顧及對隱私問題愈發敏感的用戶情緒。受訪專家告訴21世紀經濟報道,援引歐盟的“正當利益”條款來獲取用戶數據,之後可能會越來越常見,不過目前我國《個人信息保護法》沒有直接設置類似的規定,國內企業尤其需要注意獲得用戶的明示同意。

“正當利益”條款可能成爲熟面孔

在對Meta的投訴中,NOYB指出了兩點不合規之處:

理由一是Meta對人工智能的描述過於寬泛,沒有說明收集和處理用戶信息的目的。Meta的隱私政策只用了“人工智能技術”一詞,NOYB的創始人Max Schrems認爲這相當於在說“我們會在數據庫中使用數據”。

“Meta 並沒有說明它將使用這些數據做什麼,也沒有設置任何限制。人工智能技術可能指一個簡單的聊天機器人,極具攻擊性的個性化廣告,甚至是殺傷級的無人機武器。”Max Schrems解釋。

理由二是用戶默認同意收集數據,拒絕過程複雜。以Facebook爲例,用戶如果要拒絕平臺收集自己的數據,需要經過設置和隱私—隱私中心—生成式AI—更多信息—《Meta如何數據訓練大模型》五級頁面,才能在文件末尾找到一份反對錶格。並且只有主動填寫表格,經由公司之手,用戶方能拒絕數據收集。

Meta對此辯稱,大模型需要反映“歐洲人民的語言、地理和文化背景多樣性”,因此公司用戶收集數據應該屬於《通用數據保護條例》規定的“正當利益”(legitimate interests),不用特別徵得用戶同意。

通常來說,《通用數據保護條例》默認收集個人信息是非法的,但“正當利益”條款豁免了一些必須收集數據的情況,不需要獲得用戶同意,這類合法收集行爲可以出於個人利益、商業利益或者公共利益。

“業界一般會認爲歐盟對個人信息處理的限制很嚴格,其實通過正當利益條款留下了一定空間。” 世輝律師事務所合夥人王新銳從事數據合規業務多年,王新銳告訴21世紀經濟報道,正當利益條款設置複雜且靈活,需要通過一系列測試,可以說是一個解釋空間較大的合法性基礎。

此前Meta也援引過正當利益,當時辯護的是收集用戶數據來投放個性化廣告的行爲,但歐盟法院最終反駁了這一說法,Max Schrems因此認爲正當利益也難適用於訓練AI的數據抓取和使用。王新銳表示,對於一些新興技術的場景,其他的合法性基礎可能都難以成立,但正當利益還有一定的解釋空間,所以Meta會嘗試援引,估計“以後各類和AI有關的案件中,這個條款會反覆出現。”

需要注意的是,與歐盟不同,我國個保法並沒有直接將“正當利益”寫入法定的豁免情況。不過王新銳指出,歐盟《通用數據保護條例》規定的一些典型情形,我國通過其他條款也有所覆蓋。

浙江墾丁(北京)律師事務所律師程念告訴21世紀經濟報道,我國類似規定包括的情形是有限的:一類是突發衛生事件或者保護自然人的緊急情況,另一類是法定保密的行動,比如出於疫情或公安機關的反恐調查,收集數據可以不獲取用戶同意,而企業的經營行爲通常難以落入這一範圍。

用戶數據成爲行業敏感點

“我們很失望”“這對歐洲創新、人工智能開發競爭來說是一個倒退,也進一步推遲了人工智能爲歐洲人民帶來的好處。”Meta在博客中抱怨,自己其實是跟隨了行業的做法——谷歌和OpenAI都已經在使用歐洲用戶的數據來訓練AI,而且“與同行相比,我們的數據收集方法更透明。”

不過,事實似乎並非如此,謹慎對待用戶數據逐漸發展爲一種共識性的做法。比如ChatGPT率先允許用戶可以通過關閉聊天記錄功能,來拒絕自己的個人數據被官方拿去訓練,儘管這樣不可避免地會影響大模型回答的質量;6月19日,Adobe專門更新了服務條款,明確約定Adobe的軟件不會使用用戶的本地或雲端內容訓練生成式AI模型。

去年國內辦公軟件WPS曾嘗試在隱私政策中新增:“我們將對您主動上傳的文檔材料,在採取脫敏處理後作爲AI訓練的基礎材料使用”,被用戶發現後引發集體抵制,而後WPS向用戶道歉,並承諾用戶文檔不會被用於AI訓練。

目前明確會收集用戶數據訓練AI的科技巨頭有谷歌和X:爲了推出馬斯克的x.AI公司,X在去年9月更新了隱私政策,其中2.1條例中寫道:“我們可能會使用收集到的信息和公開可用的信息來幫助訓練我們的機器學習或人工智能模型”;去年7月,谷歌的隱私政策同樣新增了一條“我們可能會收集公開的在線信息或來自其他公共來源的信息,幫助訓練Google的人工智能模型。”

不過,當時北京大成律師事務所高級合夥人鄧志鬆對21世紀經濟報道表示,谷歌對收集與處理用戶個人信息的範圍和目的作出了詳細說明,即使以歐盟GDPR項下更爲嚴格的“告知—同意”規則爲標準,谷歌的做法至少在形式上合規。

NOYB還指出,Meta此次希望收集的是2007年以來所有公開和非公開的個人信息,覆蓋Facebook和Instagram社交媒體上的互動痕跡,與AI公司想要用互聯網公開資料的一般性做法有所不同。

如何滿足合規要求,在尊重用戶權利的同時發展技術?王新銳向21世紀經濟報道強調,對於國內公司,如果想要收集用戶數據訓練AI,需要遵守《生成式人工智能服務管理暫行辦法》明確規定:涉及個人信息的,應當取得個人同意或者符合法律。也就是說需要特別關注收集和使用用戶個人信息前,是否已向用戶進行了明確告知並獲得了其同意。如未提前獲得用戶同意,則應有法定義務、公共利益等其他合法性基礎,否則存在相應的合規風險。

程念補充,基於用戶使用產品而收集獲取的個人信息,除了需要明示同意,涉及敏感信息還需要單獨同意;此外要確保用戶能夠方便查詢、更正、刪除個人信息並撤回同意,尤其是需要向用戶提供拒絕收集數據用於AI訓練的選項,確保用戶的知情權和選擇權。