☰

AI訓練數據超貴僅科技巨擘能負擔

正如OpenAI研究員貝特克（James Betker）在介紹生成式AI模型與背後數據集的文章裡寫道，日益複雜、功能強大的AI系統關鍵在於訓練數據，而不是模型的設計、架構或其他特質。換言之，數據品質與數量決定了模型的強弱。

舉例來說，OpenAI耗費數億美元從新聞出版商、媒體資料庫取得內容來訓練他們自家的AI模型，此一預算遠遠超出多數學術研究機構、非營利組織與新創公司的預算範圍。

臉書母公司Meta甚至考慮收購出版商Simon & Schuster，以獲得電子書摘錄版權。該公司2023年被私募股權公司KKR以16.2億美元價碼收購。

非營利機構艾倫人工智慧研究所（AI2）資深應用研究科學家羅凱爾（Kyle Lo）表示，規模較小的企業根本無法負擔這些數據授權費用，自然無法開發或研究AI模型。

眼見AI訓練數據市場規模日益壯大，許多數據中介公司或內容平臺開始販賣數據與索取高價，完全不理會用戶反對。圖片庫供應商Shutterstock近日便與AI業者簽訂2,500萬～5,000萬美元不等的授權協議。社羣論壇Reddit則聲稱，該公司已透過資料授權從谷歌與OpenAI等公司手中賺得數億美元。

AI訓練數據超貴 僅科技巨擘能負擔