「AI是否已發展至具備人類同等程度智能」是圖靈測試(Turing test)的測試目標,(註1)近幾年來已經出現了不少在不同意義層面上通過圖靈測試的AI,但這些AI似乎依然沒有被認為具備人類同等智能。在這個問題的辯論中,人類的「創造力」被視為最後堡壘,因此測試「AI是否具備創造力」的愛達.洛夫麗絲測試(The Lovelace test)(需要註解)被認為是AI更近一步必須攻克的目標。(註2)

近年來隨著以大型語言模型(例如Generative Pre-trained Transformer,GPT,註3)為基礎的生成式AI開始越來越被廣泛使用,AI的「生成」是否具備創造力開始被大規模討論。先不論正反雙方的論述孰對孰錯、孰更有理,引發大規模討論的這件事本身,揭露「人類開始在創造力上感受到被AI逐漸追近」的事實。
語言學家諾姆.喬姆斯基(Noam Chomsky)認為人類在思考方式、學習語言與生成解釋的能力,以及道德思考方面上,還是跟當前以大型語言模型為基礎的AI在處裡語言的方式上,有著極大的差異。(註4)然而列夫.曼諾維奇(Lev Manovich)與馬努埃萊.阿里埃利(Emanuele Arielli)認為:「這種以「人」作為類比對象的論述方式是來自於「人類中心主義」,並對於這種類比方式提出質疑。(註5)

AI抽象畫 vs AI亂畫
在以深度學習為基礎的影像生成AI技術還不成熟的時候(至少比起現在相對不成熟),生成出來的影像質地是抽象的、模糊的,這種影像進入藝術領域(美術館、藝術拍賣場,註6)的立足點在於影像質地具備一定的抽象畫語彙。在藝術領域裡,抽象畫的語彙在超現實主義與抽象表現主義影響之下,指涉了某種潛意識或者是意識、精神狀態的表現。當時的AI被放進這些脈絡之中,抽象、模糊的語彙成為了一種對AI的夢境、認知、創造力的「想像」。
然而,如果就當時的AI生成演算法原理去細究,這些模糊與抽象質地的成因是來自於AI模型訓練得不夠好所導致的「無意義的隨機」過程,這樣的「想像」是否合理便產生討論空間。舉個簡單的例子,假設有一堆照片,裡面有一半是貓的照片,一半是狗的照片,如果一張一張問AI照片是不是貓,對完全沒有訓練過的AI來說,AI會像是丟銅板一樣「隨機」回答,此時沒有任何根據的隨機即是「無意義的隨機」;如果問訓練良好的AI同樣的問題,此時AI會計算出「這張照片是貓的機率」,這個「機率」所表示的「隨機性」才是「有意義的隨機」。也就是說,訓練得越好的AI,進行「無意義隨機生成的機率」就越低,生成抽象圖像的機率就越低。

加速進化的AI—當下的AI就只是當下的AI
隨著影像生成的AI技術持續突破,AI被訓練得更好了,AI無意義隨機生成抽象圖像的機率越來越低了,AI生成的影像質地越來越具象、越來越寫實。影像質地的改變也改變了人們如何看待AI「生成」與「創造力」之間的關係,這些影像不再僅對「抽象藝術」而言「實用」,而是開始對商業攝影、設計、劇本等等被認為須具備一定人類創意表現的領域而言「實用」,創意產業開始招聘AI溝通師、提示工程師(Prompt Engineer)這類型的職缺就是最好的證據。(註7)這種類型職缺的出現,表示一定比例創意產業的工作受到影響,AI的創造力不再只停留在「想像」層面,而是骨感的現實。這個現實也揭露了「AI確實具有一定程度的創造力」。
除了影像質地之外,另一個改變人們如何看待AI「生成」與「創造力」之間的關係的轉捩點在於「操作AI的方式」。在過去,即便在Github這類開源程式碼平台,或是開放API都可以取用到各式各樣的AI模型,但由於操作AI的方式還是必須透過人工語言(Artificial Language,例如程式語言),還是存在一定的技術門檻,因此操作AI工具的人被視為具有高超技能的人,這符合了大眾對於藝術家、設計師等等創意工作者的想像,這也是為甚麼當時的AI在藝術領域中更自然地被認為是一種「工具」,而不是一種提供、取代藝術家創意的存在。然而,當「操作AI的方式」從人工語言變成自然語言(Nature Language)的提示詞(Prompt)的時候,操作工具的門檻變得很簡單,不需要任何創作意圖,只要會說話,就有辦法用AI生成出蠻像樣的影像。如果說馬塞爾.杜象(Marcel Duchamp)在現成物上簽名是在強調創作意圖之於作品的重要性遠大於技法的話,那麼以提示詞為輸入的生成式AI,就給人一種除了技法之外,創作意圖之於作品好像也不怎麼重要的感覺。
值得注意的是,發生以上變化的時間跨度,也不過就三到五年左右的時間,也就是說現在已經不只是一個「巨變的時代」了,而是一個「加速巨變的時代」。(註8)世界變化的速度,遠遠比我們想像中的還要快,在任何時間點的AI就只是該時間點當下的AI,未來的AI會是甚麼樣子,我們甚至無從想像,因此也許我們永遠不該用「AI只能做到甚麼」來分析AI的影響力。AI究竟會怎麼影響「創造」生產、影響人類,其實我們能做的可能也就只是妄下推論吧!又或者該這麼說,當AI進步的速度開始超越我們想像未來的速度時,所有關於這一切的分析,都該更著重於對已成既定事實的分析,而非想像未來。
不「自然」的提示詞 vs 人工化的人腦
然而雖然提示詞使用的是自然語言,但似乎並沒有我們想像中的那麼「自然」,AI溝通師、提示工程師成為一種職業,更揭露了「跟AI溝通、下提示詞指令是一門技術」這件事,也就是所謂的學習如何對AI「詠唱」或是下「咒語」,在學術界,也有著跟提示詞相關的新興研究領域(註9、10、11、12)。
在網路上可以很輕易地找到各式各樣的「詠唱」教學,可能是「引導AI進入一種角色情境」,又或者是「使用哪種描述方式以及關鍵字」等等方式,讓AI可以生成出更詳細、更具像的影像或是回答。邏輯上這無疑是一件弔詭的事情—一開始是AI學習人類的自然語言,而後人類學習如何使用一種AI更能理解的語言。在某種意義上來說,人類實際上是在學習一種新的語言—一個與人類自然語言相似的人工語言,或是也許可以視為是一種「機器自然語言」。
在語言學中著名的「沙皮爾—沃爾夫假說」(Sapir-Whorf Hypothesis)主張人類的語言和思維方式存在著密切的關連,使用不同的語言會影響人類感知與理解現實的方式,進而影響人類的價值觀與文化觀念。(註13)如果套用此假說,也許人類學習「詠唱」或將改變人類心智,AI與人類心智之間的距離,也許不是單方面的AI像人類心智追近,而是一個兩者互相靠近的過程。
人類創造力的機械性
哲學家路德維希.維根斯坦(Ludwig Wittgenstein)曾經對於圖靈測試有過不同的觀點,他認為該測試並不是一種測試機器是否與人類具備同等智能的方法,反之是一種測試人類行為中有多少機械性的方法。(註14)曼諾維奇與阿里埃利進一步認為,以維根斯坦的思維,這些生成式AI的產出,揭露了那些我們原本認為直觀以及自由的創作過程有多少程度的機械性,並且揭露了人類的創造力可能被高估。
如果先把生成式AI放到一邊,其實在很多地方都還是可以找到機械性創造的端倪,對非藝術的創意產業而言,大同小異的住宅建築設計、題材一成不變的芭樂歌、工業化生產的商業電影、自媒體影片模版(例如:食物放大)、為創意料理杜撰的空洞故事……等,不勝枚舉。在藝術領域中,其實也不難找到機械性創造的痕跡,藝術作品的議題性、政治正確性、視覺符號流行性,也都是機械性的體現。這些機械性創造的產物,不僅沒有被淘汰,甚至成為了主流。
顯然機械創造可以滿足人類對於「創新的產物」的渴望成為了一個既定的事實。這衍生出了一個問題:人類真的需要理想型態的「非機械創造」嗎?
曼諾維奇與阿里埃利提到,生成式AI成為了一個用來確定哪些領域的作品需要可辨識的能動性,哪些不需要,他認為像是初音未來(Hatsune Miku)這類的虛擬流行歌手的成功,表明了「只要感情上參與其中,我們就不再擔心創作的過程是演算法生成還是人為生成」。這也是為甚麼「cosplay照片」、「美女照片」成為了影像生成AI一大被廣泛應用的標的。(註15)
AI是燒毀人類創造力的大火,還是鳳凰重生時的火光?
值得憂心的是,AI可以快速製造大量的「機械創造」,在人類接收資訊的能力有限的情況下,「機械創造」將佔據人類的注意力。如此一來是否會排擠我們對於「非機械創造」的需求?從維根斯坦的觀點來看,詞語是人們習慣用來指涉某事的工具,生成式AI是否會致使人們更習慣於把「機械創造」當成是「創新的產物」?人們對於「創新的產物」的認知是否會因此逐漸改變?
AI這把熊熊大火正在燃燒著創意產業與藝術,但如果反過來看,也許真金不怕火煉,在那些機械性的創作過程燃燒殆盡後,也許會浴火重生。也許我們有辦法透過AI這個「工具」反覆不斷地檢驗自身,去蕪存菁,讓我們更容易開發、逼近、運用那個有著強烈意圖與能動性的非機械創造力。

對曼諾維奇的提問
本文特別訪問曼諾維奇,請他給我們一些他對於AI作為創作工具的看法與建議:
莊向峰(以下簡稱莊):您是今年林茲電子藝術獎(Prix Ars Electronica)的評審,該獎項在2019年設立了「人工智慧」與「生命藝術」(Artificial intelligence & Life Art)類別。然而世界變化很快,當時的AI跟現在的AI不論在使用方式、產出結果,以及大眾普及性,皆有很大的不同。您認為現在此類別獎項的作品,跟兩三年前比起來有甚麼不同?
曼諾維奇:在我看來,並沒有一個特定的技術或單一的研究項目被稱為「AI」。這是我們隨著時間推移而不斷演變的文化認知。當一個被認為是獨特的人類能力或技能被自動化時,我們就把它稱為「AI」。然而,一旦這種自動化取得成功,我們就不再把它視為AI案例。換句話說,「AI」指的是那些開始發揮作用但尚未完全實現的技術和方法。
「AI」出現在最早的電腦媒體工具中。第一個互動式繪圖和設計系統—伊凡·蘇瑟蘭(Ivan Sutherland)所做的電腦程式「Sketchpad」(1961-1962年)就擁有能夠自動完成你開始繪製的任何矩形或圓形的功能。換句話說,它知道你想要創建什麼,這無疑就已經是「AI」了。
我在1984年第一次使用運行在Apple II上的桌面繪畫程式,當時能夠移動滑鼠並在屏幕上看到模擬的繪畫筆觸真的令人驚嘆。但今天我們不再認為這是AI。或者,例如多年前添加的一個自動選擇物體輪廓的Photoshop功能,這也是AI。數位媒體系統和工具的歷史上,充滿了這樣的AI時刻—起初令人驚嘆,而後被視為理所當然,並在一段時間後被遺忘它曾是「AI」。在AI歷史書籍中,這種現象被稱為「AI效應」(AI effect)。
在此刻,創意AI或藝術AI指的是近期開發的,以電腦使用特定技術(例如,某些類型的深度神經網絡)將某些輸入轉換為新的媒體輸出(例如,從文本輸入轉換到圖像輸出的模型)。然而,我們必須記得,這些方法在模擬人類藝術能力或協助人類創建媒體的漫長歷史和未來中,既不是第一個,也不會是最後一個。
已經有了50年之久的「AI藝術」史也應該以相同的角度來看待。編寫程式使電腦在不需要我們指導每一步的情況下生成藝術品的基本想法始終是一樣的,但是隨著時間的推移,用於實現這一目標的技術和方法會發生變化。例如,幾年前,AI藝術通常指的是使用GAN(一種特殊類型的深度學習神經網絡架構)生成圖像和動畫。如今,其他類型的神經網絡架構(如各種文本轉圖像模型)變得非常流行,所以今年我們可能會看到許多藝術家使用這種開源模型(像是Stable Diffusion)在特定數據集上,進一步訓練出來的作品。
莊:您也將在今年底十月下旬舉辦關於AI的新個展,想請問您自己在創作的時候,又或者是在進行評審工作的時候,AI作品中甚麼樣的元素是您更感興趣或是更看重的?是對於AI工具的操作能力(這又分為使用程式語言操作,或是使用提示詞操作),又或是創作的意圖與能動性所造就的藝術價值,還是其他?
曼諾維奇:講到使用視覺AI工具的經驗,就讓我想到在2009到2016年間的另一個經驗,那時候我做了很多大型文化相關資料集的視覺化工作。這兩個經驗的共通點在於,有時候我會很清楚結果會長怎麼樣,但另一種時候結果卻是無法預期的,對我來說,這是這些工具最有趣的地方。
毫無疑問地,藝術家們已經使用具有隨機性的方式來創作音樂、文學和藝術好幾個世紀了,而從1960年代開始,藝術家們也開始使用電腦來使用「隨機」進行創作。透過使用傳統編程(非機器學習的編程),可以運用隨機或半隨機過程,產生有趣且令人滿意的結果,到了1960年代中期,第一批電腦藝術家已經用這種方式創作了許多傑出的作品。然而,今日的AI視覺範式提供了一種截然不同的不可預測性。我們正在使用的AI,一個以網際網路以及和社群網站上挑選出來數十億圖像和文本片段所訓練出來的人工神經網絡,也就是說,由這樣的神經網路所生成出來的圖像,參照了大量的語義和美學。
關於其他使用AI的藝術家的作品,我認為僅靠新技術並不能創作出更具吸引力的作品。無論使用哪種媒介或多種媒介,最好的藝術始終需要真正的才華、獨特的敏感性以及產生新想法和美學的能力。有辦法使用數位工具創作出類似藝術品的人數非常多,因此在這些無盡的輸出中找到真正獨特且有意義的藝術作品變得相對困難。500年前的情況要簡單得多,那時只有少數藝術家需要經過多年培訓才能獨立創作。
莊:想請您給創作者們一些如何面對如此快速變化的世界的建議,您覺得創作者者們可以用甚麼態度去面對AI浪潮所帶來的衝擊?以及如何乘著這股浪潮前進?
曼諾維奇:年輕的藝術家應該盡可能多地了解藝術史和其他形式的文化。這將有助於他們創作具有意義和吸引力的作品。也應該與人類歷史上創作的重要藝術品進行對話,包括過去60年來重要的數位藝術作品。
藝術家們還必須學習一個或多個藝術技藝,如具象繪畫、攝影和電影剪輯、平面設計等。如今,任何人都可以使用新的令人驚嘆的AI工具創作視覺上令人驚豔的圖像、動畫、音樂、文本等。因此,唯一能將優秀藝術家與同一工具的其他使用者區分開來的,是原創性和有意義的概念。
他們還需要智慧和道德的力量以及勇氣來抵抗當前的主流觀念和意識形態。藝術無需描繪今天的主流觀點,因為人們時常在新聞中讀到、在電視上看到這些觀點。在我的研究、寫作和藝術創作中,我一直遵循這樣的規則:如果每個人都對A感興趣,那我就專注於B和C。這不僅僅是因為它們與A不同,而且因為我相信它們將在未來變得非常重要。這就是為什麼,例如,我在1991年開始寫作並發表關於數位媒體的文章,比如3D電腦動畫,當時每個人都在思考「後現代主義」,而學術人文領域裡沒有人對電腦感興趣。但我知道,隨著時間的推移,這種新媒體將會像攝影或繪畫一樣普遍。

註1 Turing, A. M, “Computing machinery and intelligence,” Mind, 59(236),433-460.
註2 愛達.洛夫麗絲測試(The Ada Lovelace Test)來自發表於2001年的《Minds and Machines》期刊的文章”Creativity, the Turing Test, and the (Better) Lovelace Test”。該文章討論了創造力在評估AI智能的重要性,並認為圖靈測試在評估AI的語言能力方面可能是有用的,但對於評估AI的創造力來說是不足夠的。因此,作者提出了一個改進的愛達.洛夫麗絲測試,要求AI生成一個擁有創造力的產物(例如藝術作品、音樂作品或數學證明),並且這個產物必須是AI自主生成,而不能歸因於AI設計者或編程者設定好的結果。(Bringsjord, S., Bello, P. & Ferrucci, D. “Creativity, the Turing Test, and the (Better) Lovelace Test”. Minds and Machines 11, 2001, 3-27.) https://doi.org/10.1023/A:1011206622741
註3 Radford, Alec; Narasimhan, Karthik; Salimans, Tim; Sutskever, Ilya , “Improving Language Understanding by Generative Pre-Training,”(June 2018). OpenAI. p. 12. Archived from the original on 26 January 2021. Retrieved 23 January 2021.
註4 Chomsky.N, “The False Promise of ChatGPT,” New York Times New, March 8,2023 https://www.nytimes.com/2023/03/08/opinion/noam-chomsky-chatgpt-ai.html
註5 Emanuele Arielli and Lev Manovich, “AI-aesthetics and the Anthropocentric Myth of Creativity, ” Forthcoming in Nodes Journal of Art and Neuroscience(nodesjournal.com), Fall 2022.
註6 Cohn, Gabe(2018-10-25).“AI Art at Christie’s Sells for $432,500”. The New York Times. Retrieved 29 October 2018.
註7 AI繪圖溝通師,台灣伽瑪移動數位股份有限公司,104人力銀行。 https://www.104.com.tw/job/7wsjm?jobsource=jolist_d_relevance
註8 陳姿尹,《對撞機的衝突—科學的加速度與身體感官的疏離》,國立臺北藝術大學新媒體藝術學系碩士班,2022,頁29-32。
註9 Wei, J., Wei, J., Tay, Y., Tran, D., Webson, A., Lu, Y., Chen, X., Liu, H., Huang, D., Zhou, D., & Ma, T. “Larger language models do in-context learning differently,”. ArXiv(2023). https://doi.org/10.48550/arXiv.2303.03846
註10 Wei, J., Wang, X., Schuurmans, D., Bosma, M., Ichter, B., Xia, F., Chi, E., Le, Q., & Zhou, D. . “ Chain-of-Thought Prompting Elicits Reasoning in Large Language Models,” ArXiv.(2022).https://doi.org/10.48550/arXiv.2201.11903
註11 Kojima, T., Gu, S. S., Reid, M., Matsuo, Y., & Iwasawa, Y. “Large Language Models are Zero-Shot Reasoners,”ArXiv. (2022). https://doi.org/10.48550/arXiv.2205.11916
註12 Zhou, Y., Muresanu, A. I., Han, Z., Paster, K., Pitis, S., Chan, H., & Ba, J. “Large Language Models Are Human-Level Prompt Engineers,” ArXiv. (2022) https://doi.org/10.48550/arXiv.2211.01910
註13 “The Sapir–Whorf hypothesis”, in Hoijer 1954, 92–105.
註14 Wittgenstein, PhilosophicalInvestigations(1953), 359-360.
註15 Gabbard,G.O,“ON LOVE AND LUST IN EROTIC TRANSFERENCE,”Journal of the American Psychoanalytic Association, 42(2) (1994), 385–386. https://doi.org/10.1177/000306519404200203