尋求新資料訓練 GPT-4 惹議，OpenAI 轉錄百萬小時 YouTube 影片

發展 AI 的大型科技公司爭先恐後尋找新資料來源訓練模型，但可能涉及 AI 和版權相關法規灰色地帶，需要以放大鏡仔細檢視。

OpenAI 迫切需要資料訓練模型，運用自家開發的 Whisper 音訊轉錄模型，轉錄超過 100 萬小時 YouTube 影片訓練 GPT-4 模型。《紐約時報》報導指出，OpenAI 知道這在法律層面有疑慮，但認為是合理使用，甚至由總裁布洛克曼（Greg Brockman）親自參與影片資料收集。

報導談道，OpenAI 2021 年即用盡訓練資料，並在耗盡其他資源後開始討論對 YouTube 影片、Podcast 節目、有聲書等進行轉錄，轉變成訓練資料。

針對此事，OpenAI 發言人赫爾德（Lindsay Held）僅向外媒表示，OpenAI 為每個模型開發策劃獨特資料集，幫助模型了解這個世界並保有競爭力，宣稱訓練資料來自眾多來源，包括公開資料以及合作夥伴的非公開資料，OpenAI 也在考慮產生合成資料，換句話說就是 AI 系統從自己生成的內容再訓練，然而他未正面回應是否運用 YouTube 影片投入 GPT-4 訓練。

Google 發言人布萊恩（Matt Bryant）告訴外媒，Google 有看到未經證實的報導談道 OpenAI 的行為，「我們的 robots.txt 檔案和服務條款皆禁止未經授權的抓取或下載 YouTube 內容」，他強調。

值得一提的是，YouTube 執行長莫漢（Neal Mohan）上週就 OpenAI 使用 YouTube 影片訓練 Sora 影片生成模型可能性發表類似論點。「在明確的法律或技術依據下，Google 會採取技術和法律措施防止這類未經授權的資料使用」，布萊恩補充說。

不只 OpenAI，Google 和 Meta 同樣急需資料訓練模型。

《紐約時報》引述知情人士的說法，Google 也從 YouTube 收集資料。布萊恩則表示，Google 根據與 YouTube 創作者協議，以一些影片內容訓練模型。此外，Google 法務部門要求自家隱私團隊調整政策說辭，擴大對消費者資料的處理範圍，包括 Google 文件等生產力工具。

《紐約時報》取得 Meta 內部錄音檔也顯示，AI 團隊曾討論在追趕 OpenAI 過程中使用未經授權的版權作品。瀏覽網路上幾乎所有可用的英語書籍、散文、詩歌、新聞後，Meta 考慮採取一些措施，例如支付書籍授權費用，甚至直接收購出版商。在爆發劍橋分析爭議後，Meta 進行以隱私為中心的改革，同時限制使用消費者資料方式。

OpenAI、Google、Meta 在內大型科技公司為取得訓練資料，無視資料政策和法規選擇走捷徑，迫使出版業者以及書籍作者、影音創作者紛紛提起侵權訴訟，也讓用戶更具有 AI 生成內容可能侵犯版權的意識。

（首圖來源：Unsplash）