AI 近幾年學得又快又猛,大家都在比誰的模型更厲害、誰的語料更多、誰的訓練成本更低。但就在這種「拚命學、拚命算」的氣氛下,德國法院突然賞了產業一記重拳,OpenAI 因為模型在訓練階段「記住」受著作權保護的歌詞,被判定侵權。
這可不是一般大家以為的「AI輸出太像」問題,而是更基礎、更根本的質疑。AI 在「學」的時候就可能犯法。AI 竟然連學習本身都可能犯法?在過去,業界普遍認為「反正資料都在網路上,抓來訓練應該沒什麼吧?」但這次法院直接否認了這種想法,甚至逼著大家開始思考「如果AI學太多會犯法,那它到底能學到什麼程度才算合法」?
AI訓練不是天下無敵,學到「原文」就踩線了
在科技圈,大家普遍相信大語言模型只是學到語言的統計規律,而不是把訓練資料逐字存下來。但德國法院完全採用相反的觀點,它並不關心模型內部到底是權重還是向量,而是只要你能在一般情況下讓模型吐出一大段幾乎一模一樣的歌詞,那就表示模型的內部一定存在足以重現作品的資訊。
這並不是靠「語言能力」推敲出來的,而是「記住」的結果。對法院而言,能輸出完整內容,就代表作品已被固定在模型參數中,因此屬於重製。法院這種判斷方式,體現著作權法的核心精神,法律不要求複製的形式相同,只要結果使作品可被取得,就可能成立侵權。
當分析變成「背起來」,例外即失效
過去許多 AI 公司仗賴的法律保護傘,是被稱為 TDM(Text and Data Mining)例外的規範。這項例外容許研究者及技術開發者為分析目的而短暫複製作品,用以進行語料整理、語言模式分析等功能。
然而,德國法院在本案中明確指出,TDM 的精神是支持抽象層面的分析,而不是讓模型將完整作品送進「記憶」中並在之後進行再現。這也代表,當模型能完整吐出歌詞時,該行為已超出「資料挖掘」的範疇,而落入需取得授權的重製與利用行為。
法院的立場是如果模型只是統計字詞,例外確實成立;但當模型可以輸出完整歌詞,代表作品並非被拿來「分析」,而是被「記住」。這已經超越了 TDM 允許的範圍。
法院也補了一句非常關鍵的法律觀點──TDM 是為「理解資料」而設計的例外,而不是為「複製資料」開綠燈。翻成白話就是,挖礦可以,但你不能把整座礦山扛走。當模型輸出會讓原作品重新回到市場,那就不再是分析,而是利用,自然也就不再受到例外保護。
當透明義務遇上商業機密,產業將迎來新的緊張期
判決一出,產業第一個疑問就是:既然模型可能因為訓練資料侵權,那平台是不是應該公開到底用過哪些內容?權利人當然覺得應該,因為若沒有清楚的資料來源,他們既無法主張權利,也無法計算授權金。
但從企業角度來看,訓練資料的組合往往是它們的秘密武器,公開來源等於把自己的配方交給競爭者。這形成一個越來越尖銳的矛盾,透明有助於法律遵循,但會削弱競爭力;保密能保護企業利益,但同時也提高被告風險。未來 AI 產業很可能會走向「不公開逐字內容,但要公開資料類型與來源管道」的折衷做法,即在保護創作者權益與保障市場競爭環境之間,法律必須找到一條可被社會接受的中間道路。
AI的下一階段,資料乾淨度將比模型算力更重要
如果說這起判決引領起什麼趨勢,那便是全球 AI 產業可能正在從「資料越多越強」的開始發展階段,轉入「資料越乾淨越重要」的新時代。未來的模型訓練可能不再追求最大量,而是追求「可授權」、「可證明」、「可稽核」的資料品質。
對擁有大型內容庫的音樂公司、影視平台或出版業者而言,這是一個大幅提升談判力的契機;但對依賴網路開放資料建模的中小型 AI 公司來說,法遵成本可能比運算成本更令人頭痛。長遠來看,這場判決或許會把整個產業推向一個更有秩序的方向,使 AI 的學習不再建立在模糊的資料來源上,而是建立在可討論、可授權的基礎上。
這種轉變其實符合著作權法一項長期存在的原則,技術可以創新,但不能以犧牲創作者的市場價值為代價。這或許讓AI發展速度稍微放慢,但也可能建立一個更有秩序、更尊重創作、更可溝通的產業環境。
- Germany delivers landmark copyright ruling against OpenAI: What it means for AI and IP
- Rightsholders Take the Lead: GEMA v. OpenAI
- OpenAI used song lyrics in violation of copyright laws, German court says
(首圖來源:pixabay)






