AI 公司收集 Reddit 內容將要付費,CEO:沒必要免費送資料給大公司

作者 | 發布日期 2023 年 04 月 24 日 17:26 | 分類 AI 人工智慧 , Big Data , 數位內容 line share follow us in feedly line share
AI 公司收集 Reddit 內容將要付費,CEO:沒必要免費送資料給大公司


自從 OpenAI 的 ChatGPT 聊天機器人面世後,全球掀起「AI 熱」,大大小小開發者努力從各網站尋找訓練 AI 的資料。最近 Reddit 用戶 akhudek 發現 Reddit 更新 API 使用條款,如果以用戶回覆當成 AI 訓練資料須先取得同意。

Reddit 稍早更新 API 使用條款,明確規定 AI 開發者需取得 Reddit 用戶許可,才可使用訓練機器學習(Machine Learning)或人工智慧模型(AI model)。

▲ Reddit 18 日更新的 API 使用條款(綠色底線處)。

Reddit 自 2005 年面世後經歷 18 個寒暑,每日近 5,700 萬人次拜訪論壇,且話題天南地北,從化妝到電腦遊戲,甚至量子力學也有專屬社群。由於牽涉的話題之廣,內容之深,使 Reddit 各種對話對 Google、OpenAI 等人工智慧公司都是絕佳訓練資料來源。Reddit 更新使用條款後,不再自動授權開發者使用 API 訓練 AI。

Reddit 創辦人兼行政總裁 Steve Huffman 接受 New York Times 採訪時表示 ,Reddit 的語料庫(Corpus)很有價值,沒必要提供世界性大公司免費的語料庫資料。Huffman 說 Reddit 的語料庫之所以有價值,是因 Reddit 討論比其他網站真實貼切:「Reddit 很多內容只能在心理治療師、匿名戒酒會(Anonymous Alcoholics,AA)等互助小組聽到。」

▲ Steven Huffman。(Source:Web Summit, CC BY 2.0, via Wikimedia Commons)

Huffman 重申 Reddit 仍會免費提供 API 給第三方 Reddit 應用程式開發者,但大型人工智慧模型公司需付費。新 API 使用條款將於 6 月 19 日生效。

(本文由 Unwire HK 授權轉載;首圖來源:Unsplash