正在閱讀
將權利還給創作者:16,000多筆未經授權的「Midjourney」AI訓練資料曝光,創作者該如何自保?

將權利還給創作者:16,000多筆未經授權的「Midjourney」AI訓練資料曝光,創作者該如何自保?

Giving Back Creators Their Rights: Over 16,000 Unauthorized “Midjourney” AI Training Usage Exposed, How Can Creators Protect Themselves?

生成式AI繪圖程式「Midjourney」在2024新年之初,遭人揭露,團隊未經授權即使用涵蓋16,000多筆的藝術家名單進行AI模型訓練。事實上,從獨立創作者到「Getty Images」、《紐約時報》等跨國內容企業皆無一倖免,淪為生成式AI的免費訓練數據庫;然而當前科技的高速發展並不會因此停止,相對地法律和監管程序可能需要耗費數年才得以建置,屆時亦可能為時已晚。那麼對創作者而言,除了尋求法律途徑之外,是否能夠找到自保的應對之道,甚至展開反擊對抗?

自推出即引起全球矚目的生成式AI繪圖程式「Midjourney」在2024新年之初又佔據X、Bluesky(去中心化社群)各大社群版面成為輿論焦點,但這次不是因為AI文生圖技術的進步革新,而是遭人揭露,團隊未經授權即使用涵蓋16,000多筆的藝術家名單進行AI模型訓練。

外流的藝術家名單依照英文字母A到Z排列,包括安迪.沃荷(Andy Warhol)、塞.湯伯利(Cy Twombly)、達米恩.赫斯特(Damien Hirst)、大衛.霍克尼(David Hockney)、法蘭西斯.培根(Francis Bacon)、格哈德.里希特(Gerhard Richter)、巴勃羅.畢卡索(Pablo Picasso)、保羅.塞尚(Paul Cézanne)、文森.梵谷(Vincent van Gogh)與草間彌生(Yayoi Kusama)等現當代的藍籌藝術家;而以華特.迪士尼(Walt Disney)為首,名單中也不乏為迪士尼(Disney)、任天堂(Nintendo)、孩之寶(Hasbro)等跨境企業打造出知名IP,在商業上取得巨大成功的動畫師、插畫家與設計師等等。

與此同時,「Riot Games」(以電競遊戲《英雄聯盟》聞名全球)資深動畫分鏡師Jon Lam也在個人X上,發布了Midjourney創辦人大衛.霍茲(David Holz)與內部開發團隊討論該份AI訓練文件的Discord對話截圖。隨著這些深埋在AI訓練黑盒子中的內容曝光,彷彿為近年來許多藝術家控訴AI侵權的相關訴訟案件帶來了一線曙光。

據《ARTnews》報導,其實這份外流的藝術家名單出自一起創作者指控Midjourney、開發Stable diffusion的Stability AIDeviantArt侵害著作權所提起的集體訴訟。2023年10月30日,加利福尼亞聯邦法院駁回了這群創作者所提出的侵權指控;11月29日,這群創作者隨即提交了一份訴狀修正案,這份含有16,000筆藝術家的名單只是455頁補充證據中的一部分。

生成式AI技術自2022年橫空出世迄今,已經從方方面面滲透進人們的日常生活,使用者只須鍵入提示詞(prompt),AI就會針對指令立即運算、產出相應的文字或影像。這不僅造成人類勞動市場的地殼變動——各行各業都重新盤點資源,試著引入AI工具提升生產效率、節省勞動成本——也使得人類與AI溝通的需求日益增加,善於組合、運用提示詞的「AI詠唱師」因而成為近年最熱門的新興職業。而在藝術領域,以AI生成圖片奪得國際獎項的新聞也從最初震撼世人的創舉,逐漸成為人們見怪不怪的眾多案例之一。

2022年,Jason Allen以Midjourney生成的《Théâtre D’opéra Spatial》奪得美國科羅拉多州博覽會(Colorado State Fair)的數位藝術類首獎。同年9月,美國著作權局(US Copyright Office)拒絕該圖像的著作權申請,並揭示:使用Midjourney生成的圖像,由於生成方式不被視為人類的精神創作,因此無法受著作權保護。(Public Domain)

以Midjourney為例,只須鍵入藝術家名稱、藝術風格等等關鍵字,AI程式就可以在幾秒鐘內產出具有特定藝術家風格的作品。對於以此維生的人類藝術家而言,這些模仿他們創作風格,進而生成出獲得專業評審青睞的作品的AI,其訓練過程是否使用了未經授權的圖像資料也引發眾多質疑。然而,這些生成式AI模型的訓練過程同時也是相關企業的商業機密,因此外人幾乎無從查證,最終只能訴諸法律,寄望法院能為其揭開這些AI模型訓練的「黑盒子」,釐清真相。

Midjourney首頁截圖。

沒有辦法取得一億張圖片,並知道它們來自何方。(There isn’t really a way to get a hundred million images and know where they’re coming from.)

——大衛.霍茲(David Holz)

而在相關判決結果出爐前,我們或許可以從《富比士》(Forbes)於2022年9月刊出的一篇大衛.霍茲專訪文章,找到一些蛛絲馬跡。大衛.霍茲在專訪中提到MidJourney的AI是開發團隊藉由對互聯網的大規模爬取,使用已發布的開放數據集來進行訓練的;當被問道是否有取得擁有著作權的藝術家同意時,大衛.霍茲表示,「沒有,實際上沒有辦法取得一億張圖片,並知道它們來自何方。」他認為如果圖像中嵌入了有關著作權人的元數據,或者有一個登記表將會是件好事,但沒有辦法在互聯網上找到一張圖片,然後自動追蹤到作者,並對該圖片的著作權歸屬進行驗證。專訪中也討論到「藝術家是否可以要求不被列入MidJourney所使用的AI訓練數據集之中」以及「藝術家是否可以選擇不在提示詞中被提及」等等敏感問題,當時大衛.霍茲給出的回應皆是「團隊正在研究這個問題」。

將時間拉回2024年撰文的此刻(1/6),若我們實際進入MidJourney官方網站的「服務條款」(Terms of Service)頁面查看,可以看到基於美國《數位千禧年著作權法》(Digital Millennium Copyright Act,DMCA)所制定的「DMCA和下架政策」(DMCA and Takedowns Policy)。《數位千禧年著作權法》保障著作權人可以透過提出侵權通知,要求網站或服務提供者移除侵權的內容。依照通知程序,當事人須提供三份聲明、提出認為遭侵害著作權的作品(或商標),並詳細說明涉及侵權的素材,以便MidJourney團隊能找到該素材,然而「(Midjourney)團隊將保留刪除、禁用遭指控素材,或封鎖與該素材相關的任何連結之權利。」同時網站上也標明,處理與該條款相關的爭議事件時,將透過有約束力的「仲裁」而非尋求法律途徑解決。由此可見,為了捍衛自身權益,創作者需要面對具有諸多不確定性的申訴流程,也不禁令人猜測,這是否間接導致了多數創作者選擇一狀告進法院。

從獨立創作者到跨國媒體集團無一倖免,淪為生成式AI的免費數據庫

據《路透社》(Reuters)的相關報導指出,目前與生成式AI相關的法律訴訟,不只有藝術家針對MidJourney與Stable diffusion等提供AI文生圖服務的公司提出集體訴訟;知名商業圖庫網站「Getty Images」也在2023年2月對Stability AI提告;《紐約時報》則是於2023年12月27日公開指控開發ChatGPT的OpenAI以及微軟(Microsoft)。前述原告方皆主張,科技公司未經授權就擅自取用圖文素材用於AI訓練,侵害了他們的著作權,以此要求金錢賠償,並要求法院下令禁止對其作品的濫用。

究竟在推動AI科技發展的過程中,難以避免的著作權爭議應該如何處理,科技公司是否能夠主張「合理使用」等等問題,或許只能留待相關的法院判決結果出爐,才能夠有比較明確的方向,然而當前科技的高速發展並不會因此停止,相對地法律和監管程序可能需要耗費數年才得以建置,屆時亦可能為時已晚。那麼對創作者而言,除了尋求法律途徑之外,是否能夠找到自保的應對之道,甚至展開反擊對抗?由芝加哥大學研究開發的數位工具,試圖在小蝦米對抗大鯨魚的局面之中,提供創新的解決方案,為創作者另闢生路。

將權利交還給創作者的黑魔法反擊術

根據《麻省理工科技評論》(MIT Technology Review)2023年10月的報導,由芝加哥大學資訊科學學系(Computer Science)教授Ben Zhao領導的研究團隊,開發出名為「Nightshade」的工具,讓藝術家可以在將作品上傳到網路之前,對其作品圖像添加人類肉眼不可見的像素,這些像素不會影響作品視覺呈現,但卻具有「污染」、「毒害」生成式AI模型的效果,若AI開發公司仍然在未經許可的狀況下,藉由大量爬取網路上的公開資料建立AI訓練數據集,將可能導致訓練出來的AI模型陷入混亂、輸出錯誤,甚至崩潰。

有毒的數據樣本將能夠操縱模型學習,例如,讓AI將帽子的圖像理解為蛋糕、狗的圖像理解為貓等等,又因為生成式AI的模型擅長在單字之間建立關聯,因此當Nightshade污染了AI對「狗」這個詞的理解後,將會擴散影響到所有與之相關聯的概念,例如「小狗」、「哈士奇」和「狼」等等,而要解決這樣的毒害,必須找出每個受損的樣本再加以刪除。不難想像,若將來創作者都懂得先使用Nightshade為自身作品加工再上傳,很可能導致AI開發公司舉步維艱。

使用「Glaze」為圖片加工,以此防止AI透過學習特定藝術家的風格來建立模型的示意圖。(圖片擷取自Glaze介紹影片

惟Nightshade尚未正式開放,該研究目前已提交給美國高等計算機系統協會USENIX進行同行評審(Peer Review);但此前該團隊所開發的「Glaze」則是已開放給公眾無償使用。獲得《時代雜誌》2023年度最佳發明(TIME Best Inventions of 2023)「特別提及」獎,與「USENIX 2023網際網路防禦獎」(Internet Defense Prize)的Glaze將藉由改變圖像中不可見的像素,「遮蔽」藝術家獨特的創作風格,以此誤導AI模型的理解,使其將圖像視為與實際顯示內容不同的物件,防止AI透過學習特定藝術家的風格來建立模型。

不過,誠如開發團隊於Glaze官網上所述,這些創新工具並非人類對抗AI人工智慧的永久解決方案,今日使用的技術總是有可能被未來的演算法所克服,因此,這些工具並不是萬靈丹,而是在朝向以藝術家為中心的保護工具發展的道路上,必須邁出的第一步。

延伸閱讀|【薄荷薄荷】生成AI時代,藝術家手上有沒有黑魔法防禦術——抗抄襲技術是軍備競賽,還是螳臂當車?

延伸閱讀|【張寶成專欄】直到Web3抓住AI:回訪一個失落的典範

參考資料

Reuters,〈How copyright law could threaten the AI industry in 2024〉,Blake Brittain,January 3, 2024。

ARTnews,〈Database of 16,000 Artists Used to Train Midjourney AI, Including 6-Year-Old Child, Garners Criticism〉,KAREN K. HO,January 2, 2024。

MIT Technology Review,〈This new data poisoning tool lets artists fight back against generative AI〉,Melissa Heikkiläarchive,October 23, 2023。

ARTnews,〈New Data ‘Poisoning’ Tool Enables Artists To Fight Back Against Image Generating AI〉,KAREN K. HO,October 25, 2023。

Rob Salkowitz,〈Midjourney Founder David Holz On The Impact Of AI On Art, Imagination And The Creative Economy〉,Sep 16, 2022。

蔡昕縈(Tsai, Hsin-Ying)( 19篇 )

典藏ARTouch社群編輯(FBIGX),藝術世界潛水員,透過寫字滿足求知慾。信箱:singing@artouch.com

查看評論 (0)

Leave a Reply

Your email address will not be published.