☰

YouTube成AI訓練新寵？ OpenAI操作手法曝光

《紐約時報》指出，OpenAI利用YouTube影片來訓練GPT-4。（圖/路透社）

以聊天機器人ChatGPT一炮而紅的人工智慧公司OpenAI，去年發佈功能更強大的GPT-4，成爲AI領域的衡量標竿。而這樣快速的進步或許靠的正是YouTube影片的「幫忙」。據《紐約時報》報導，OpenAI利用AI版權法的模糊地帶，轉錄了超過100萬小時的YouTube影片，用於訓練其先進大型語言模型GPT-4。

YouTube 是網路上最大且最豐富的圖像、音訊與文字記錄來源。在AI技術迅速發展之際，數據對推動AI模型的進步至關重要，各相關企業對訓練數據的需求更爲迫切。YouTube因此成爲科技公司鎖定的目標。

據《紐約時報》報導，OpenAI在2021年底就面臨了訓練數據短缺的難題。爲了開發最新的人工智慧系統，OpenAI已耗盡網路上所有有信譽的英語文字庫，然而爲了訓練其技術的下一個版本，顯然還需要更多的數據。

爲了克服數據短缺的難題，OpenAI的研究人員開發出一款名爲「Whisper」的語音辨識工具，將超過100萬小時的YouTube影片內容轉化爲文字，用於訓練其先進的大型語言模型GPT-4。

《紐約時報》報導中指出，其實OpenAI的部分員工也討論過這個做法可能違反YouTube 的規則。可是消息人士表示，儘管瞭解這樣做在法律層面有問題，但OpenAI 團隊最終仍轉錄了超過100萬小時的YouTube 影片，而這個團隊中還包括了OpenAI總裁Greg Brockman，他甚至親自幫忙收集這些影片。

可是對於旗下的YouTube被OpenAI當作訓練工具，Google並未出面制止，原因似乎與Google自身也同樣藉由YouTube影片內容訓練其人工智慧模型有關。

YouTube執行長Neal Mohan日前曾在受訪時表示，他沒有直接證據能夠證明OpenAI確實使用了YouTube的影片來訓練其文字生成影片AI工具Sora，但同時也強調，如果OpenAI真的使用了，那就明顯違反了YouTube平臺的使用條款。

但《紐約時報》指出，爲了在AI競賽中搶先，搜尋推動技術所需的數位數據已成爲重要課題，而爲了取得這些數據，包括OpenAI、Google與臉書母公司 Meta 在內的科技公司紛紛選擇走捷徑，無視公司政策，甚至還討論如何扭曲法規限制。

相關資訊

DMCA | PRIVACY | s@bg3.co