趁著這次《Genesis》(註1)發表,稍微有一些值得跟大家分享的事情。畢竟一個不懂編程,也不數位的藝術家,居然做了這樣的作品,太奇怪了。
故事開始於豆泥(註2)介紹我Pixray網站的時候,先後算了幾張圖,也看了一些別人的成品。或許是運氣好吧,有跑出幾張還算不錯看的圖片,當然也發現裡面好玩的地方。其中最吸引人的地方是,機器的「誤讀」與「偏差」所生成的造型與效果。所謂的誤讀並非是機器出現錯誤,舉例來說:當輸入蘋果的時候,跑出一台哀鳳,要說是蘋果也沒錯吧?而偏差則是,輸入某些字串時(如香蕉),原本預期AI給出一串或一根香蕉,結果整個畫面都香蕉化了。
這事情是有趣的,彷彿AI總是能給出各種超乎想像的答案。在這個階段,圖像的創造性仍由它所掌握(我也僅將它作為靈感工具)。而我就像遇到一個奇怪的外星人,不斷丟出問題,想聽聽它那超乎人類經驗、無厘頭的回應。便順應進行了一些試驗。
第一階段試驗,我試著用維拉斯奎茲的《仕女圖》作為關鍵字,搭配其他字句與其互動。首先遇到的問題便是,如何讓它精確明白所指的《仕女圖》是什麼。我嘗試過加入畫家的名字,或乾脆將「維拉斯奎茲的仕女圖」作為字串使用,要嘛就是不知道偏到什麼地方去,要嘛乾脆跑出維拉斯奎茲其他的畫作黏在一起。有趣的是,單看其中一張圖像時,還難以聯想到《仕女圖》,但把一堆成果擺在一起時,線索則便得清晰。
另一方面,也注意到某些字串的效果會渲染到畫面其他造型上,成為造型的「表面肌理」。舉例來說,加入「肌肉解剖圖」後,裙子變成粉嫩的肉塊。字串效果成為造型的「表面肌理」給予很大鼓勵。這種狀況下,生成的圖片往往具有更強烈、更意想不到的個性(尤其是無法完全掌控這些肌理會出現在什麼地方)。也因此,便試圖嘗試更多不同的關鍵字,來測試對畫面的影響。但不管哪個,每一組字串,至少都得算個20張,才有可能大致理解它表達的範疇可能為何。
第二階段,更聚焦測試其他內容,以確定該如何引導外星人,好好回應我的問題,建立溝通的可能。測試的項目包含:讓畫面表達簡潔一點、製造空間感、拼貼影像的技巧、浮世繪與動漫的拼接。
想讓畫面變簡潔。從之前的經驗知道,減少字串無法讓畫面變得簡潔。因此採取的辦法是,使用例如窗景、櫃子、地毯之類等字串。預期在格子以外的地方,會有框線、物件本身的材質對畫面進行切割。
而製造空間感,試過使用魚眼鏡頭、透視法、空房間之類的字串。效果並不穩定,尤其魚眼鏡頭常伴隨著大量的雜物一起出現。但運氣夠好的話,總有幾張效果不錯。最終發現,更實際的做法會是挑選本身就具有透視效果的字串使用(如:城市街景、窗景、隧道),儘管不見得百發百中,但已經算相對穩定了。
與豆泥在針對這個發現做了一番討論,亦即:當我們描述一個關鍵字時,機器擷取的影像便是人類集體對該字詞所生產出來的影像、圖像之集合。這代表,機器對同樣字串的理解,是受限制的(註3)。有趣的地方也在於,這些理解往往不如我們預期的表現在畫面中(想想香蕉的故事)。
拼貼影像的部分,則是以台灣復古街景照片作為關鍵字,效果其實不差。因此我更細緻往下思考,有沒有什麼樣的對象可能以影像的方式作為圖源存在,因此我試驗了「台灣警察暴力」以及特定地標。說實話,雖然有幾張不錯的成品,但感覺大同小異,我猜測或許是我使用的關鍵字能擷取到的資料實在不多。
想到在脈絡上,浮世繪與日本動漫應該算是有些關聯,便試著把它們拼在一起看看(甚至加入莫內、梵谷)。可惜浮世繪作為字串使用時,太過強烈,常常整張圖都被它吃掉。過程中意外發現,當我將福音戰士初號機、太陽之塔作為字串時,反而沒有出現期待的造型,更多是它們的色彩、配色,影響了整個圖像的構成。
簡單總結一下,要完成一幅完整度相對高的圖像,不外乎:構圖、造型、色彩、肌理。而第一階段的測試,發現解決「肌理」可能的辦法。第二階段則是「構圖」與「色彩」。造型倒是相對好解決的事情(只是偶爾要換個思路:例如想要畫一個太陽,說不定要改用「橘色的球體」或是「銀色的海膽」。)最大的困難或許是,如何讓你輸入的字串以你期待的方式出現(到底是色彩、造型或是肌理)。
一直到這邊,我意識到人是有可能與機器進行協商。在不透過編程或提示文字去影響機器的狀況下,除了能保留機器誤讀、偏差所帶來的圖像創造性,並且讓我所期待的畫面元素佈署在其中。更甚至,能在構圖、色彩、造型、肌理上,盡可能滿足需求。
第三階段,則開始嘗試與機械協商(如:送給豆泥的精神似顏繪)。這挑戰比我想像困難許多,也相當耗費力氣(溝通成本真的很高呀,朋友)。以送給豆泥的那張圖為例。想表現醫科背景、章魚干、黃色的豆子,且讓畫面主題可以清晰。來來回回算了可能也有三百多張圖。其中我覺得傑出的一手,便是使用「小小兵」字串,黃色的又是豆子狀,多棒啊。但還是試了很多次,甚至透過GOOGLE圖片輔助,摸索怎樣增加條件會更具體(常常畫面散落許多小小兵,或者混進不相關的東西)。最後以小小兵為字串的部分,記得是「minion profile portrait」才較為精準鎖定。其它使用的關鍵字有點記不清楚,但大概有手術室、章魚、金屬櫃(統整畫面的好幫手,金屬可換成其他材質,推薦大家試試看)之類的。
經過漫長的第三階段,我更確信人跟機械的協商是有機會的。也從這裡開始,開始構思透過「與機器協商」這件事情取回一部分的創造性,如何發展成一個創作計畫。
然後就是《Genesis》了。
對我來說,米開朗基羅的《創世紀》無疑是個好的切入點。除了連結到生成技術之外,也連結到創造的寓言,更重要的是作為文藝復興時期的畫作,還能直接碰到人本精神。這個創作計畫中,比起如何生成出好看的圖片,更重要的絕對是背後想討論的事情,以及對人與機器關係的的思考。
生成出好看的畫面真的不難,暴力一點的解法,骰子骰多了總會出現好結果(猴子都有機會隨機敲出莎士比亞全部作品)。若能好好解決構圖、造型、色彩、肌理,大概率出來都不會太難看。但要當作「作品」來看,仍還是期待在看似輕盈的視覺內容之外,有其它能談論、思考的內容。尤其是在不懂編程的狀況下能另闢膝蓋,做自己能力範圍內可能做到的事情。
最後偷偷分享一下,平均一張《Genesis》大概要算個400到450張圖才有30張左右不差的:元素到位、構圖不錯、色彩協調、與其他張圖的風格不至於太過斷裂。這種「農」的感覺,不亞於線上遊戲呀,只是打遊戲「骰」裝備,跟Pixray協商則是「骰」圖片。
註釋
註1 使用Pixray網站生成的作品,以NFT形式發表於Akaswap平台。作品連結生成藝術與米開朗基羅《創世紀》,透過與機械來回協商,進行與AI攜手之狀況下的人本思考。
註2 黃豆泥,斜槓未執業醫師,新台灣國旗的最初設計者。除了設計之外,亦關注遠端醫療等相關議題。目前積極探索加密藝術市場應用於非營利機構領域。
註3 豆泥描述如下:「當你在 Pixray 寫下艾菲爾鐵塔(Eiffel Tower)時,機器吐出來的圖片是一個鐵製尖塔,不是從艾菲爾鐵塔底下往上看的樣子,也不是站在塔頂往外看的樣子,為什麼呢?因為全人類都一致認為,艾菲爾鐵塔便應該一幢從遠方凝視的尖塔。艾菲爾鐵塔的符號非常明確,大家的心像大致上相同。」
或許是當代藝術創作者,畢業於台北藝術大學美術系、藝術跨領域研究所。於2021年進入Tezos鏈世界,曾企劃幾次鏈上行動,並與其他NFT創作者在鏈上調皮搗蛋,其中包含:秘密基地、Spymash、張明曜雙年展。目前最悲傷的事情是,雖然喜歡玩遊戲,但已經有好一段時間沒有沉迷於遊戲中,正試圖透過藝術創作、行動尋找遊戲樂趣。