自從 OpenAI 的 ChatGPT 聊天機器人面世後,全球掀起「AI 熱」,大大小小開發者努力從各網站尋找訓練 AI 的資料。最近 Reddit 用戶 akhudek 發現 Reddit 更新 API 使用條款,如果以用戶回覆當成 AI 訓練資料須先取得同意。
Reddit 稍早更新 API 使用條款,明確規定 AI 開發者需取得 Reddit 用戶許可,才可使用訓練機器學習(Machine Learning)或人工智慧模型(AI model)。
▲ Reddit 18 日更新的 API 使用條款(綠色底線處)。
Reddit 自 2005 年面世後經歷 18 個寒暑,每日近 5,700 萬人次拜訪論壇,且話題天南地北,從化妝到電腦遊戲,甚至量子力學也有專屬社群。由於牽涉的話題之廣,內容之深,使 Reddit 各種對話對 Google、OpenAI 等人工智慧公司都是絕佳訓練資料來源。Reddit 更新使用條款後,不再自動授權開發者使用 API 訓練 AI。
Reddit 創辦人兼行政總裁 Steve Huffman 接受 New York Times 採訪時表示 ,Reddit 的語料庫(Corpus)很有價值,沒必要提供世界性大公司免費的語料庫資料。Huffman 說 Reddit 的語料庫之所以有價值,是因 Reddit 討論比其他網站真實貼切:「Reddit 很多內容只能在心理治療師、匿名戒酒會(Anonymous Alcoholics,AA)等互助小組聽到。」
▲ Steven Huffman。(Source:Web Summit, CC BY 2.0, via Wikimedia Commons)
Huffman 重申 Reddit 仍會免費提供 API 給第三方 Reddit 應用程式開發者,但大型人工智慧模型公司需付費。新 API 使用條款將於 6 月 19 日生效。