著作權 vs. 開源:發展生成式 AI 在台灣正面臨法制撞牆期

作者 | 發布日期 2025 年 07 月 25 日 8:00 | 分類 AI 人工智慧 , 數位內容 , 網路 line share Linkedin share follow us in feedly line share
Loading...
著作權 vs. 開源:發展生成式 AI 在台灣正面臨法制撞牆期

2025 年 7 月初,中央通訊社對一名無償分享繁體中文語料庫的台大博士生提出著作權侵害告訴,引發國內 AI 社群譁然。這位博士生整理大型網路文本語料、並以開放資料授權在社群公開,卻意外接到警方調查通知。他驚訝地表示,只是將繁體中文資料集開源分享給需要訓練 AI 的人使用,竟陷入可能觸法的處境。

此事件為台灣生成式 AI 發展的重要警訊:即便沒有商業營利目的,蒐集並提供網路資料訓練模型,仍可能遭認定侵害著作權。幸而最終這個案件以和解收場,卻觸發「訓練 AI」與「著作權」間的衝突。

台灣案例曝露法制空白

除中央社案,之前新創公司「七法」(Lawsnote)也因爬取商業法律資料庫「法源」內容遭重判:七法公司以爬蟲抓取法源網站逾 50 萬筆法規沿革與附件資料,載入自家法學資料庫供用戶檢索。2025 年 6 月,新北地方法院依違反《著作權法》等罪,將七法兩名創辦人判處四年與兩年徒刑,並連帶賠償法源公司約 1 億 545 萬元,如此高額刑民責任在台灣實屬首例。

法院認定,七法幾乎無償取得法源多年累積的編輯成果,以低價服務與之競爭,侵害編輯著作權多達 98,068 筆,情節重大。即便許多人都對判決書是否存在「著作權」而引發爭議,但也激發了相關法律紅線的討論,重新審視資料爬蟲的風險。

對開源開發者而言,這些案件突顯台灣在智慧財產權保護與 AI 創新之間的制度空白:當技術創新踩在法律灰色地帶時,缺乏法律明文允許就難有「免死金牌」。

新聞媒體的焦慮

全球新聞出版業者近年面對生成式 AI 的崛起,也表露出強烈的版權焦慮:紐約時報、CNN、BBC 等知名媒體都已封鎖 AI 爬蟲抓取其網站資料。紐約時報曾嘗試與 OpenAI、微軟等公司洽談付費授權,但多遭以「公平使用」為由拒絕。協商未果下,2023 年底,《紐約時報》控告 OpenAI 與微軟未經同意複製使用其數百萬篇新聞與調查報導等內容訓練模型,認為此舉損害了報社聲譽及訂閱、授權、廣告收益,要求停止侵權並銷毀模型和訓練資料庫。也有內容平台則乾脆祭出技術圍堵:社群網站 Reddit、Twitter 去年修改介面或政策,以阻擋網路爬蟲大規模擷取用戶貼文資料。

除了訴諸法律,部分媒體選擇與 AI 公司簽訂授權合約,用有償授權換取資料使用的透明與利益分享。如美聯社(AP)2023 年與 OpenAI 達成協議,授權後者使用其部分新聞稿庫訓練模型,換取技術交流支援。

訓練需要資料,合法邊界在哪裡?

面對內容產業的強硬態度,AI 開發者與科技公司也展開法律和輿論雙重反擊。他們普遍主張使用網路公開資料訓練 AI 屬於合理使用,不應視為侵權。

例如《紐約時報》訴訟案,OpenAI 強調模型訓練受美國著作權法「公平使用」原則保障。所謂「公平使用」(fair use),是美國等地著作權法的彈性條款,允許特定狀況未經授權使用受保護作品。OpenAI 認為網際網路自 1990 年代以來,就是允許資料被複製與再利用,搜尋引擎等服務才能運作。

同時 AI 相關業者也認為模型輸出的是全新內容、而非原作品片段。如圖像領域,知名圖片庫 Getty Images 曾於 2023 年控告生成式 AI 新創公司 Stability AI 未經許可擷取超過 1,200 萬張照片訓練模型。Stability AI 之後承認確實使用 Getty 圖片訓練,但辯稱只是「暫時複製」,最終產生圖像是「全新且原創的合成圖」,並未直接重現原作。

這類說法反映 AI 業界的「認知」:模型訓練時,複製資料是技術所需的中間環節,重點在於輸出成果是否侵犯創作版權。但為了避免情況越演越烈,AI 業者也開始主動找尋降低摩擦的方法。如嘗試以付費授權方式合法獲取訓練資料,並與 Google 一同推出「拒絕擷取」的網頁標記工具,允許網站營運者選擇不讓 AI 爬取資料。

從美國公平使用到日本例外條款

2025 年 6 月,舊金山聯邦法院的裁定明確支持 AI 訓練的「公平使用」立場:法官認定 Anthropic 公司在未經作者許可下,以受版權保護的書籍訓練大型語言模型 Claude,符合著作權法下的合理使用要件。這項裁決被視為 AI 部署領域的重要先例,因為法院認為模型訓練屬轉化性用途,目的並非取代原著,且 Claude 模型的輸出並未再現原作品的創意表達或模仿作者風格。

不過,法院同時也強調,需要進一步調查 Anthropic 蒐集大量盜版電子書並永久存庫的行為是否構成侵權,以及可能的賠償責任,且實際爬取新聞也對媒體業者造成實質侵害。

另外,歐盟 2019 年通過的「數位單一市場著作權指令」,新增了「文本與資料探勘」例外,允許有合法存取權的研究者或企業為了資料探勘目的,複製大量受保護作品而無需事先徵得同意。該條款相當於為搜尋引擎式的大量內容分析開了綠燈,但仍限定於探勘資訊之用途。

日本早在 2018 年修法時,就新增《著作權法》相關規定:只要不是以「享受」原作品為目的,都可在必要範圍內利用受保護作品進行資料分析。這使得日本被視為對生成式 AI 開發最友善的法域之一。有學者分析,日本沒有照搬美國的自由心證式公平使用,而是以具體條款賦予 AI 訓練合法空間,為平衡創新與版權提供了明確框架。

回到台灣這邊,目前著作權法尚無針對 AI 訓練資料的明文例外規定,相關爭議只能寄望於法院個案中對「合理使用」的詮釋。但在法律尚未鬆綁前,像七法和中央社語料庫這樣的案件可能陸續上演,對 AI 相關的創新發展造成寒蟬效應。相關單位和立法機關應已在這幾次的事件中,注意到「著作權」與「創新」之間的衝突,開始評估要如何推進相關法條。

但不管如何規定,媒體都是受打擊最大的那方:許多人都說新聞門檻低、記者沒讀書,但新聞資料卻是從搜尋引擎→社群媒體,再到生成式 AI 被打擊最大的受災戶。

(首圖來源:Pixabay

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》