大咖 YouTuber 驚訝發現，蘋果、輝達等大廠利用字幕資料訓練 AI

根據非營利新聞工作室 Proof News 調查發現，如蘋果、輝達、Salesforce、Anthropic 等科技公司使用的 AI 模型，利用數千部 YouTube 影片字幕做為資料來源訓練模型，這未經過創作者同意，可能違反 YouTube 服務條款。

這些科技公司使用 the Pile 訓練他們的 AI 模型，the Pile 是非營利組織 EleutherAI 的資料集，目的是為沒有資源與大型科技公司競爭的個人或中小企業提供有用的資料集，但之後也被大型科技公司加以運用。

the Pile 資料來源包含書籍、維基百科文章等，Proof News 發現還有 YouTube 字幕 API 收集來的「YouTube Subtitles」，這些字幕內容是從 48,000 多個 YouTube 頻道的 173,536 部 YouTube 影片字幕抓取而來，包括可汗學院（Khan Academy）、麻省理工學院、哈佛大學等線上教育影片，甚至有知名 YouTuber 的影片字幕資料，如 MrBeast、PewDiePie、jacksepticeye、Marques Brownlee 等。

Proof News 提出一項線上查詢工具，利用搜尋方式查看你喜歡的 YouTuber 和影片內容是否出現在此資料集當中。

蘋果、輝達及 Salesforce 等公司在他們的研究論文描述如何使用 the Pile 來訓練 AI，如蘋果的文件顯示，使用 the Pile 訓練 OpenELM，這是今年 4 月發表的模型。

「蘋果從多家公司取得 AI 資料，其中一家從 YouTube 影片（包括我的影片）抓取大量資料／字幕。蘋果在技術上避免犯這種錯，因為他們不是直接抓取資料的一方，但長久發展下這是個問題」，Marques Brownlee 在 X 提出看法。

Apple has sourced data for their AI from several companies

One of them scraped tons of data/transcripts from YouTube videos, including mine

Apple technically avoids “fault" here because they’re not the ones scraping

But this is going to be an evolving problem for a long time https://t.co/U93riaeSlY

— Marques Brownlee (@MKBHD) July 16, 2024