將權利還給創作者：16,000多筆未經授權的「Midjourney」AI訓練資料曝光，創作者該如何自保？

Giving Back Creators Their Rights: Over 16,000 Unauthorized “Midjourney” AI Training Usage Exposed, How Can Creators Protect Themselves?

生成式AI繪圖程式「Midjourney」在2024新年之初，遭人揭露，團隊未經授權即使用涵蓋16,000多筆的藝術家名單進行AI模型訓練。事實上，從獨立創作者到「Getty Images」、《紐約時報》等跨國內容企業皆無一倖免，淪為生成式AI的免費訓練數據庫；然而當前科技的高速發展並不會因此停止，相對地法律和監管程序可能需要耗費數年才得以建置，屆時亦可能為時已晚。那麼對創作者而言，除了尋求法律途徑之外，是否能夠找到自保的應對之道，甚至展開反擊對抗？

自推出即引起全球矚目的生成式AI繪圖程式「Midjourney」在2024新年之初又佔據X、Bluesky（去中心化社群）各大社群版面成為輿論焦點，但這次不是因為AI文生圖技術的進步革新，而是遭人揭露，團隊未經授權即使用涵蓋16,000多筆的藝術家名單進行AI模型訓練。

外流的藝術家名單依照英文字母A到Z排列，包括安迪．沃荷（Andy Warhol）、塞．湯伯利（Cy Twombly）、達米恩．赫斯特（Damien Hirst）、大衛．霍克尼（David Hockney）、法蘭西斯．培根（Francis Bacon）、格哈德．里希特（Gerhard Richter）、巴勃羅．畢卡索（Pablo Picasso）、保羅．塞尚（Paul Cézanne）、文森．梵谷（Vincent van Gogh）與草間彌生（Yayoi Kusama）等現當代的藍籌藝術家；而以華特．迪士尼（Walt Disney）為首，名單中也不乏為迪士尼（Disney）、任天堂（Nintendo）、孩之寶（Hasbro）等跨境企業打造出知名IP，在商業上取得巨大成功的動畫師、插畫家與設計師等等。

與此同時，「Riot Games」（以電競遊戲《英雄聯盟》聞名全球）資深動畫分鏡師Jon Lam也在個人X上，發布了Midjourney創辦人大衛．霍茲（David Holz）與內部開發團隊討論該份AI訓練文件的Discord對話截圖。隨著這些深埋在AI訓練黑盒子中的內容曝光，彷彿為近年來許多藝術家控訴AI侵權的相關訴訟案件帶來了一線曙光。

Midjourney developers caught discussing laundering, and creating a database of Artists (who have been dehumanized to styles) to train Midjourney off of. This has been submitted into evidence for the lawsuit. Prompt engineers, your “skills” are not yourshttps://t.co/wAhsNjt5Kz pic.twitter.com/EBvySMQC0P
— Jon Lam #CreateDontScrape (@JonLamArt) December 31, 2023

據《ARTnews》報導，其實這份外流的藝術家名單出自一起創作者指控Midjourney、開發Stable diffusion的Stability AI和DeviantArt侵害著作權所提起的集體訴訟。2023年10月30日，加利福尼亞聯邦法院駁回了這群創作者所提出的侵權指控；11月29日，這群創作者隨即提交了一份訴狀修正案，這份含有16,000筆藝術家的名單只是455頁補充證據中的一部分。

生成式AI技術自2022年橫空出世迄今，已經從方方面面滲透進人們的日常生活，使用者只須鍵入提示詞（prompt），AI就會針對指令立即運算、產出相應的文字或影像。這不僅造成人類勞動市場的地殼變動——各行各業都重新盤點資源，試著引入AI工具提升生產效率、節省勞動成本——也使得人類與AI溝通的需求日益增加，善於組合、運用提示詞的「AI詠唱師」因而成為近年最熱門的新興職業。而在藝術領域，以AI生成圖片奪得國際獎項的新聞也從最初震撼世人的創舉，逐漸成為人們見怪不怪的眾多案例之一。

2022年，Jason Allen以Midjourney生成的《Théâtre D’opéra Spatial》奪得美國科羅拉多州博覽會（Colorado State Fair）的數位藝術類首獎。同年9月，美國著作權局（US Copyright Office）拒絕該圖像的著作權申請，並揭示：使用Midjourney生成的圖像，由於生成方式不被視為人類的精神創作，因此無法受著作權保護。（Public Domain）

以Midjourney為例，只須鍵入藝術家名稱、藝術風格等等關鍵字，AI程式就可以在幾秒鐘內產出具有特定藝術家風格的作品。對於以此維生的人類藝術家而言，這些模仿他們創作風格，進而生成出獲得專業評審青睞的作品的AI，其訓練過程是否使用了未經授權的圖像資料也引發眾多質疑。然而，這些生成式AI模型的訓練過程同時也是相關企業的商業機密，因此外人幾乎無從查證，最終只能訴諸法律，寄望法院能為其揭開這些AI模型訓練的「黑盒子」，釐清真相。

沒有辦法取得一億張圖片，並知道它們來自何方。（There isn’t really a way to get a hundred million images and know where they’re coming from.）
——大衛．霍茲（David Holz）

而在相關判決結果出爐前，我們或許可以從《富比士》（Forbes）於2022年9月刊出的一篇大衛．霍茲專訪文章，找到一些蛛絲馬跡。大衛．霍茲在專訪中提到MidJourney的AI是開發團隊藉由對互聯網的大規模爬取，使用已發布的開放數據集來進行訓練的；當被問道是否有取得擁有著作權的藝術家同意時，大衛．霍茲表示，「沒有，實際上沒有辦法取得一億張圖片，並知道它們來自何方。」他認為如果圖像中嵌入了有關著作權人的元數據，或者有一個登記表將會是件好事，但沒有辦法在互聯網上找到一張圖片，然後自動追蹤到作者，並對該圖片的著作權歸屬進行驗證。專訪中也討論到「藝術家是否可以要求不被列入MidJourney所使用的AI訓練數據集之中」以及「藝術家是否可以選擇不在提示詞中被提及」等等敏感問題，當時大衛．霍茲給出的回應皆是「團隊正在研究這個問題」。

將時間拉回2024年撰文的此刻（1/6），若我們實際進入MidJourney官方網站的「服務條款」（Terms of Service）頁面查看，可以看到基於美國《數位千禧年著作權法》（Digital Millennium Copyright Act，DMCA）所制定的「DMCA和下架政策」（DMCA and Takedowns Policy）。《數位千禧年著作權法》保障著作權人可以透過提出侵權通知，要求網站或服務提供者移除侵權的內容。依照通知程序，當事人須提供三份聲明、提出認為遭侵害著作權的作品（或商標），並詳細說明涉及侵權的素材，以便MidJourney團隊能找到該素材，然而「（Midjourney）團隊將保留刪除、禁用遭指控素材，或封鎖與該素材相關的任何連結之權利。」同時網站上也標明，處理與該條款相關的爭議事件時，將透過有約束力的「仲裁」而非尋求法律途徑解決。由此可見，為了捍衛自身權益，創作者需要面對具有諸多不確定性的申訴流程，也不禁令人猜測，這是否間接導致了多數創作者選擇一狀告進法院。

從獨立創作者到跨國媒體集團無一倖免，淪為生成式AI的免費數據庫

據《路透社》（Reuters）的相關報導指出，目前與生成式AI相關的法律訴訟，不只有藝術家針對MidJourney與Stable diffusion等提供AI文生圖服務的公司提出集體訴訟；知名商業圖庫網站「Getty Images」也在2023年2月對Stability AI提告；《紐約時報》則是於2023年12月27日公開指控開發ChatGPT的OpenAI以及微軟（Microsoft）。前述原告方皆主張，科技公司未經授權就擅自取用圖文素材用於AI訓練，侵害了他們的著作權，以此要求金錢賠償，並要求法院下令禁止對其作品的濫用。

究竟在推動AI科技發展的過程中，難以避免的著作權爭議應該如何處理，科技公司是否能夠主張「合理使用」等等問題，或許只能留待相關的法院判決結果出爐，才能夠有比較明確的方向，然而當前科技的高速發展並不會因此停止，相對地法律和監管程序可能需要耗費數年才得以建置，屆時亦可能為時已晚。那麼對創作者而言，除了尋求法律途徑之外，是否能夠找到自保的應對之道，甚至展開反擊對抗？由芝加哥大學研究開發的數位工具，試圖在小蝦米對抗大鯨魚的局面之中，提供創新的解決方案，為創作者另闢生路。

將權利交還給創作者的黑魔法反擊術

根據《麻省理工科技評論》（MIT Technology Review）2023年10月的報導，由芝加哥大學資訊科學學系（Computer Science）教授Ben Zhao領導的研究團隊，開發出名為「Nightshade」的工具，讓藝術家可以在將作品上傳到網路之前，對其作品圖像添加人類肉眼不可見的像素，這些像素不會影響作品視覺呈現，但卻具有「污染」、「毒害」生成式AI模型的效果，若AI開發公司仍然在未經許可的狀況下，藉由大量爬取網路上的公開資料建立AI訓練數據集，將可能導致訓練出來的AI模型陷入混亂、輸出錯誤，甚至崩潰。

有毒的數據樣本將能夠操縱模型學習，例如，讓AI將帽子的圖像理解為蛋糕、狗的圖像理解為貓等等，又因為生成式AI的模型擅長在單字之間建立關聯，因此當Nightshade污染了AI對「狗」這個詞的理解後，將會擴散影響到所有與之相關聯的概念，例如「小狗」、「哈士奇」和「狼」等等，而要解決這樣的毒害，必須找出每個受損的樣本再加以刪除。不難想像，若將來創作者都懂得先使用Nightshade為自身作品加工再上傳，很可能導致AI開發公司舉步維艱。

使用「Glaze」為圖片加工，以此防止AI透過學習特定藝術家的風格來建立模型的示意圖。（圖片擷取自Glaze介紹影片）

惟Nightshade尚未正式開放，該研究目前已提交給美國高等計算機系統協會USENIX進行同行評審（Peer Review）；但此前該團隊所開發的「Glaze」則是已開放給公眾無償使用。獲得《時代雜誌》2023年度最佳發明（TIME Best Inventions of 2023）「特別提及」獎，與「USENIX 2023網際網路防禦獎」（Internet Defense Prize）的Glaze將藉由改變圖像中不可見的像素，「遮蔽」藝術家獨特的創作風格，以此誤導AI模型的理解，使其將圖像視為與實際顯示內容不同的物件，防止AI透過學習特定藝術家的風格來建立模型。

不過，誠如開發團隊於Glaze官網上所述，這些創新工具並非人類對抗AI人工智慧的永久解決方案，今日使用的技術總是有可能被未來的演算法所克服，因此，這些工具並不是萬靈丹，而是在朝向以藝術家為中心的保護工具發展的道路上，必須邁出的第一步。

延伸閱讀｜【薄荷薄荷】生成AI時代，藝術家手上有沒有黑魔法防禦術——抗抄襲技術是軍備競賽，還是螳臂當車？

延伸閱讀｜【張寶成專欄】直到Web3抓住AI：回訪一個失落的典範