AI訓練數據超貴 僅科技巨擘能負擔

正如OpenAI研究員貝特克(James Betker)在介紹生成式AI模型與背後數據集的文章裡寫道,日益複雜、功能強大的AI系統關鍵在於訓練數據,而不是模型的設計、架構或其他特質。換言之,數據品質與數量決定了模型的強弱。

舉例來說,OpenAI耗費數億美元從新聞出版商、媒體資料庫取得內容來訓練他們自家的AI模型,此一預算遠遠超出多數學術研究機構、非營利組織與新創公司的預算範圍。

臉書母公司Meta甚至考慮收購出版商Simon & Schuster,以獲得電子書摘錄版權。該公司2023年被私募股權公司KKR以16.2億美元價碼收購。

非營利機構艾倫人工智慧研究所(AI2)資深應用研究科學家羅凱爾(Kyle Lo)表示,規模較小的企業根本無法負擔這些數據授權費用,自然無法開發或研究AI模型。

眼見AI訓練數據市場規模日益壯大,許多數據中介公司或內容平臺開始販賣數據與索取高價,完全不理會用戶反對。圖片庫供應商Shutterstock近日便與AI業者簽訂2,500萬~5,000萬美元不等的授權協議。社羣論壇Reddit則聲稱,該公司已透過資料授權從谷歌與OpenAI等公司手中賺得數億美元。