
編按:
拉蒙.羅培茲.曼塔拉(Ramón López de Mántaras)是西班牙國家研究委員會(CSIC)研究教授和人工智慧研究所(IIIA)創始人,也是歐洲人工智慧研究先驅。自1976年開始,便在模式識別、近似推理、專家系統、機器學習、案例推理、自主機器人以及AI與音樂等領域貢獻卓著,發表近300篇相關論文與著作,多次獲邀於國際會議上發表專題演講,長年為人工智慧領域最主要的學術會議「國際人工智慧聯合會議」(International Joint Conference on Artificial Intelligence,IJCAI)董事會成員,並數次擔任IJCAI「人工智慧,藝術與創意」焦點論文(Special Track on Ai, the Arts and Creativity)項目之主席。此次《典藏.今藝術&投資》特別徵求曼塔拉的同意,摘譯其於2016年發表的文章〈人工智能與藝術:邁向計算創造力〉(Artificial Intelligence and the Arts: Toward Computational Creativity),並進一步訪談曼塔拉教授,請他與我們分享其對近來人工智慧、藝術與創造力關係的想法與觀察。
右圖:拉蒙.羅培茲.曼塔拉。(拉蒙.羅培茲.曼塔拉提供)
導言
計算創造力是研究建立表現出人類創造性行為的資訊科學。這樣的創意性軟體可以用於自主創造性任務,例如發明數學理論、寫詩、繪畫和作曲。然而,計算創造力研究也使我們能夠理解人類的創造力並生產供有創意的人使用的軟體,其中軟體作為創意合作者而非僅僅是工具。歷史上,社會很難接受宣稱具有智能甚至具有創造力的機器。即使在電腦科學中,人們對軟體的創造潛力仍持懷疑態度。計算創造力的反對者通常認為:「模擬藝術技巧也意味著模擬人類思維和推理,尤其是創造性思維。這是無法使用演算法或信息處理系統來實現的。」我們不同意這種觀點。正如本文所舉的例子所顯示的那樣,創造力並不是一種超出科學研究範疇的神秘禮物,而是一種可以被探討、模擬和應用於社會福祉的東西。雖然社會可能仍在適應,但計算創造力作為一門學科已經成熟。這種成熟表現在近年來與計算創造力相關的活動量;我們正在建立的創意軟體的複雜性;我們的軟體所產生的文化價值;以及最重要的是,我們正在發現關於計算創造力的一般性問題的共識。
「計算創意」是一個非常活躍的研究領域,許多議題仍有待探討。例如,許多人仍然依據圖靈測試(Turing,1950)趨近地衡量軟體產生的藝術品價值。也就是說,如果有一定數量的人無法確定哪些藝術品是由電腦產生,哪些是由人類產生,那麼該軟體就做得不錯。其他人則認為,對於創意軟體來說,圖靈測試是不適當的。我們必須捫心自問:「在完全知情的情況下,人們是否會像對待人類產生的藝術品一樣珍視由電腦產生的藝術品?」在某些領域,答案可能是肯定的:例如,即便由電腦產生,笑話仍然很有趣。然而,在其他領域,例如視覺藝術,答案很可能是否定的。這凸顯出,在評估藝術作品時,我們不僅考慮成果,也還要考慮製作過程。因此,人們可以認為圖靈式測試在本質上預設了電腦失敗的條件。
建構創意軟體同時面臨技術和社會上的挑戰。為了更進一步發展,我們需要接受電腦與人類不同的事實。我們應該為我們的軟體所產生的作品感到自豪。我們應該讚頌我們所使用的人工智慧技術的複雜性,讓軟體具有創造性的行為。同時,我們也應該透過描述軟體創作作品的方法,幫助一般大眾欣賞這些電腦作品的價值。
創造力似乎很神秘,因為當我們有創意的想法時,很難解釋我們是如何得到它們的,我們常常在試圖解釋創造力時使用模糊的概念,如「靈感」和「直覺」。我們對於創意的產生方式的無知並不一定意味著不存在科學解釋。事實上,我們對於其他活動,如語言理解、模式識別等的執行方式也不是很清楚,但是我們有越來越好的人工智能技術能夠模仿這些活動。由於不可能出現無中生有的東西,我們必須了解每一個創意的作品或想法,都是由歷史文化預先的架構形成的;它是文化遺產和生活體驗的結晶。正如瑪格麗特.博登(Margaret Boden)在她的書《人工智能和自然人》(Artificial Intelligence and Natural Man,1987)中所述:
在大腦中產生的新思想可能並不完全是全新的,因為它們的種子已經存在於大腦中的表徵之中。換句話說,每個創意想法中都蘊含著我們所有的文化、知識和經驗。知識和經驗越豐富,發現新的連結以引導創意想法的可能性就越大。如果我們把創意定義為在我們已經擁有的知識片段之間建立新連結的結果,那麼擁有更多的預備知識就意味著更具創意能力。
基於上述,創造力廣泛接受的操作型定義是:「一個創意的想法是已知的概念的新穎且有價值的組合。」換句話說,物理定律、定理和音樂作品可以由現有元素的有限集合生成,因此,創造力是解決問題的高級形式,其中包括記憶、類比、學習和在有限條件下的推理,也因此可以通過電腦來模擬。
本文通過一些能夠複製某些創意行為的電腦程序,探討實現計算創造力的可能性問題。礙於篇幅限制,未能包括其他有趣的應用領域,例如故事講述(Gervás,2009),詩歌(Montfort et al.,2014),科學(Langley et al.,1987)甚至幽默(Ritchie,2009)。因此,文章將探討一些音樂和視覺藝術領域的代表性成果,專注於這些藝術領域的原因是因為它們是目前最活躍且成果最令人印象深刻的領域。最後,也將討論最近通過協助和增強人類創造力實現創意民主化趨勢的一些思考。
音樂中的計算創意
自20世紀50年代開始,人工智慧便一直在電腦音樂的歷史中扮演著關鍵角色。然而,直到最近,大部分的努力都集中在作曲和即興系統上,很少有程式專注於音樂表現性。在這一節中,我們將回顧一些在作曲、表演和即興方面的人工智能方法的顯著成就,並強調表現性音樂方面的成就。
作曲
希勒(Hiller)和艾薩克森(Isaacson)於1958年在ILLIAC電腦上進行了最著名的電腦音樂先驅工作。他們的程式通過馬可夫鏈偽隨機生成音符。接下來,通過古典和聲和對位法的啟發式作曲規則對生成的音符進行測試,只有符合規則的音符才會被保留。希勒和艾薩克森的方法排除了任何有關表現力和情感內容的問題,因此,從旋律品質的角度來看,成果相當有限,其始終不足以產生高品質的音樂。


Moorer(1972)的作品不是基於馬可夫機率鏈,而是以啟發式技術模擬人類的作曲過程,不僅可生成簡單的旋律,還有相應的和弦。Levitt(1993)開發了一種描述語言,通過一系列稱為「風格模板」的限制關係來表達有意義的輸入轉換,如和弦進行和旋律線條。早期人工智慧技術最具代表性的案例也許是Rader(1974)的音樂循環曲(如「Frère Jacques」)生成器,這個人工智慧系統最有趣的是可應用性規則組件,決定旋律和和弦生成規則的應用性,以及權重規則,通過權重來表示可應用規則的應用可能性。
AI的先驅人物,例如Herbert Simon和Marvin Minsky也發表了與電腦音樂相關的作品。Simon和Sumner(1968)描述了一種正式的音樂模式語言,以及一種模式歸納方法,用於發現在音樂作品中隱含的模式。Marvin Minsky則在他著名的論文〈音樂,思想和意義〉(1981年)中討論了「音樂如何使我們印象深刻」的重要問題。他的方法通過能夠識別音樂大節的高階中介來解釋音樂作品中的更複雜關係。
Rothgeb(1969)的研究是最早在作曲系統中使用多種AI技術處理自動和聲問題的系統。Ebcioglu(1993)開發了一個專家系統CHORAL,用於以J.S.巴赫的風格和聲化聖歌,其作品是最全面的和聲作品之一。MUSACT(Bharucha,1993)使用神經網路學習音樂和諧的模型,藉以捕捉和諧品質的音樂直覺。HARMONET(Feulner,1993)通過結合神經網絡和限制滿足技術處理和諧化問題。神經網絡,在HARMONET的MELONET系統(Hörnel和Degenhardt,1997;Hörnel和Menzel,1998)得到了擴展。MELONET使用神經網路學習和再現旋律序列中的更高級別結構。然而,純粹的約束滿足方法效率不高。Sabater等人(1998)中,和聲問題通過結合規則和基於案例的推理進行處理,因為「規則不是音樂,而是音樂創造了規則」。因此,基於案例的推理允許使用已經和聲化的作品示例作為新的和聲化案例。基於案例的方法的另一個優點是,每個新的正確和聲化的作品都可以被記憶下來,並作為和聲化其他旋律的新例子。事實上,系統擁有的例子越多,系統就越少需要使用規則,因此失敗的概率就越小。MUSE(Schwanauer,1993)也是一個學習系統,它通過學習一組聲部領先約束的規則集來擴展初始小集合,成功地學會了傳統調性音樂書籍中包含的一些標準聲部領先規則。Morales-Manzanares等人(2001)開發了一個名為SICIB的系統,能夠使用身體動作創作音樂。該系統使用附加在舞者身上的感測器數據,並應用推理規則實時將手勢與音樂結合。
David Cope的EMI計畫是使用人工智能進行計算機作曲的最著名作品(Cope,1987,1990)。該項目的重點在於模擬各種作曲家的風格。它成功地創作出Cope、莫扎特、巴萊斯特里納、阿爾比諾尼、布拉姆斯、德布西、巴赫、拉赫瑪尼諾夫、蕭邦、斯特拉文斯基和巴托克等作曲家風格的音樂。
合成有表現力的音樂
電腦生成音樂的主要限制之一是它缺乏表現力,即缺乏「姿態」(gesture)。姿態是音樂家稱為演奏細微差別的詮釋,換句話說「創造力」。Johnson(1992)是最早嘗試解決音樂表現力問題的人之一。她開發了一個專家系統,用於確定演奏巴赫《平均律鍵盤曲集》中賦格曲的速度和藝術性。斯德哥爾摩的KTH團隊的工作(Friberg,1995;Friberg等,1998,2000;Bresin,2001)是關於演奏系統的長期研究中最著名的之一。他們的Director Musices系統包括了在MIDI範圍內約束的節奏、動態和演奏變換的規則。這些規則既來自於音樂理論知識,也來自於實驗性的訓練,特別是使用所謂的分析合成方法。這些規則分為三個主要類別:區分規則,增強了音階音之間的差異;分組規則,顯示哪些音調應該在一起;合奏規則,同步合奏中的各個聲音。
Canazza等人(1997)開發了分析音樂家如何在演奏中表現意圖的系統,來分析顯示兩個不同的表現維度:一個與能量(動態)有關,另一個與動力學(rubato)有關。Dannenberg和Derenyi(1998)的工作也是使用手動構建規則的好例子,用於進行表達變換。Bresin(1998)實現了一個結合符號決策規則和神經網路的系統,用於模擬真實鋼琴演奏家的風格。神經網路的輸出表達時間和音量偏差。所有基於規則的方法,主要問題在於很難找到足夠通用的規則,以捕捉同一位音樂家演奏同一樂曲的不同演奏中存在的多樣性,甚至在一次演奏中也存在著多樣性(Kendall和Carterette,1990)。
SaxEx(Arcos et al.,1998)是基於案例推理的系統,它能夠合成基於人類獨奏演出的案例,演奏高質量的表現性爵士慢歌的中音薩克斯獨奏。通過案例推理,我們已經可以處理五個最重要的表現參數:動態,自由節奏,顫音,吹奏和音符打擊。奠基於SaxEx而發展出的TempoExpress(Grachten et al.,2004)也是基於案例推理的系統。TempoExpress對表演的音樂表現力有豐富的描述,不僅包括表演的樂譜音符的時間偏差,還表示了更嚴格的表現方式,例如音符裝飾、整合和分段。
Widmer等人(2009)描述了一個基於統計大數據學習的高表現力古典鋼琴音樂的計算機程式。創作者對於他們的程式是否可以被認為是具有創造力採取了非常實用的觀點,並聲稱「創造力在於觀察者的眼中」。實際上,創作者的主要目標是通過AI方法探索並更好地理解音樂表演作為一種創造性人類行為。
讓電腦具有表現力是所謂超級樂器的基本組成部分。這些樂器旨在通過獨特的細微差別來增強樂器的聲音,以賦予其人類的表現力和豐富的現場音效。麻省理工學院媒體實驗室的托德.馬科弗(Tod Machover)便開發了這樣的超級大提琴,著名的大提琴演奏家馬友友在幾年前的坦格爾伍德音樂節上演奏了由托德.馬科弗創作的一首名為《重新開始…》(Begin Again Again…)的超級大提琴作品。
即興音樂
即興音樂是一個非常複雜的創意過程,也因此,在創意上它比作曲更複雜。Fry(1984)的Flavors Band系統是早期的即興計算機作品。GenJam(Biles,1994)通過基因演算法建立了爵士樂手學習即興演奏的模型。Papadopoulos和Wiggins(1998)也使用基因演算法在給定的和弦進程上即興演奏爵士旋律。Franklin(2001)使用循環神經網路從爵士薩克斯風手Sonny Rollins的即興獨奏轉錄學習如何即興演奏爵士獨奏。使用強化學習算法來改進神經網路的行為。

上述方法缺乏與人類即興演奏者的互動,但仍然可以生成非常有趣的即興演奏,因此,雖然即興演奏的最基本特徵是即時創造旋律,但這些方法並不意味著互動。Thom(2001)的Band-out-of-a-Box(BoB)系統解決了BoB和人類演奏者之間的即時互動即興演奏的問題。換句話說,BoB是即時即興演奏的「音樂伴侶」。Johnson-Laird則提出了一個隨機模型,該模型基於在限制的可能音符空間中進行貪婪搜索,以選擇在某一時間點播放的音符。
另一個值得注意的互動即興系統是由Dannenberg(1993)開發的。該系統與Thom的方法的不同之處在於,音樂生成主要是由作曲家的目標驅動,而不是演奏者的目標。Wessel(1998)的互動即興系統與Thom的方法更為接近,因為它也強調了現場即興演奏的伴奏和增強。
在視覺藝術中的計算創造力
藝術家和程式設計師哈羅德.科恩(Harold Cohen,1995)開發的AARON是一個機器人系統,可以用其機械手臂拿起一支畫筆,在畫布上獨立繪畫。它不僅可以畫出現有的圖畫,還能按要求創造出許多獨一無二的圖畫。AARON的知識和使用方式與人類的知識和使用方式不同,因為人類的知識是基於體驗世界而來的,然而就像人類一樣,AARON的知識是逐步獲得的。例如,一旦它理解了葉簇的概念,就可以在需要時使用這個知識。對於AARON,植物的存在是以大小、與高度相關的樹幹粗細、枝幹隨著擴散變細的速度、分枝程度、分枝出現的角度分佈等等來描述的。葉子和葉簇的形成原則也是如此。通過操作這些因素,AARON能夠生成各種各樣的植物類型,即使畫出許多同類型的植物,也不會畫出完全相同的植物。
此外,AARON必須知道人體的構成、不同部位之間的大小關係以及它們如何相互連接。接著,它必須知道人體各部位如何活動以及每個關節的運動類型和範圍。最後,因為協調運動的身體不只是獨立移動部位的集合,AARON必須知道關於身體運動協調的一些知識:例如身體為保持平衡必須做什麼。從概念上講,這並不像看起來那麼困難,至少對於單腳或雙腳著地的站立姿勢來說。這只是保持重心在基礎上,必要時使用手臂以達到平衡的問題。它還具有有關遮蔽的知識,因此一個部分被遮蔽的人體可能只有一隻手臂和/或一條腿可見,但AARON知道正常人有兩隻手臂和兩條腿,因此當沒有被遮蔽時它總是會畫出兩隻肢體。這意味著AARON無法「破壞」規則,也永遠不會「想像」例如只有一條腿的人類等抽象形式的繪畫。從這個意義上講,AARON的創造力是有限的,與人類的創造力相差甚遠。儘管如此,AARON的繪畫已經在倫敦的泰特現代美術館和舊金山現代藝術博物館展出。在某些方面,AARON的作品達到了某種創造性的圖靈測試,因為它的作品足以與一些最好的人類藝術家的作品並列展出。
Simon Colton的Painting Fool(Colton et al., 2015)比AARON更加自主。雖然該軟體不會在畫布上物理地應用顏料,但它可以通過數字模擬多種風格,從拼貼到筆觸等。用Colton的話來說:
Painting Fool 只需要最少的指引,就能透過網路搜尋素材來創作自己的概念。這個軟體可以自行執行網路搜尋並爬取社群媒體網站上的資訊。其想法是透過這種方式讓它能夠創作對觀眾有意義的藝術作品,因為它本質上是利用人們在網路上行動、感受和爭論的經驗。
例如,在2009年,Painting Fool根據一條新聞故事創作出了自己對阿富汗戰爭的詮釋,結果是阿富汗市民、爆炸和戰爭墓地的並列。
其他應用於繪畫和其他視覺藝術的計算創意的例子包括Karl Sims和Jon McCormack的作品。Karl Sims的《Reaction-Diffusion Media Wall》(Sims,2016)是基於對生物形態發生過程所支配的反應擴散方程的交互式模擬,從而創造出新興的動態紋理模式,這件作品在波士頓科學博物館展出。Karl Sims的先前作品包括在他的遺傳圖像系統(Sims,1994)中運用演化計算技術創造互動進化圖像。
Jon McCormack在他的「自然之後設計計畫」(McCormack,2014)中探討了如何成功地將生物學過程應用於創意系統。在另一個名為「創意生態系統」的項目中,他從生物生態系統中提取概念和隱喻(McCormack和d’Inverno,2012),以增強數位藝術中的人類創造力。

支援和增強人類創造力:創意的民主化
我們能否利用人工智慧來支援人類創造力和發現?一種名為「協助創作」的新趨勢對創意具有重要的影響:一方面,協助創作系統正在使各種創意技能更加易於接近;另一方面,協同平台,例如歐洲PRAISE項目中開發的音樂學習平台(Yee-King和d’Inverno,2014)正在讓學習新創意技能變得更加容易。PRAISE是一個基於社交網絡的學習平台,包括人類和智能軟件代理,為音樂學生提供有關音樂作曲、編曲和演奏的回饋。學生根據導師提供的課程計劃(作曲、編曲或演奏)上傳自己的解決方案。然後,智能代理以及其他同學和導師分析這些解決方案並提供反饋。例如,在作曲的情況下,代理可能會說:「你的調制聽起來很好,但你可以嘗試在第5至8小節將所有東西升高一個大三度。」
在演奏的情況下,其他智能軟體代理會將學生的演奏與導師上傳課程計劃時錄製的演奏進行比較。攝像機捕捉學生的動作,軟體代理還提供關於可能不正確的姿勢的反饋。加速技能獲得時間的工具導致了一種被稱為「創意的民主化」的現象。
早在1962年,道格拉斯.恩格爾巴特(Douglas Engelbart,1962)就寫道:「一台寫作機器可以讓你使用新的文本構思過程……你可以更輕鬆地整合新的想法,並因此更加持續地發揮你的創造力。」恩格爾巴特的願景不僅是增強個人的創造力,他還希望通過提高協作和團體解決問題的能力,增強群體的智力和創造力。基本思想是,創造力是一個社會過程,可以通過技術加強。通過將這些想法投影到未來,我們可以想像一個創意高度可達的世界,(幾乎)任何人都可以像最好的作家一樣寫作,像偉大的大師一樣繪畫,創作高品質的音樂,甚至發現新的創意表達形式。對於沒有特定創意技能的人來說,通過輔助創作系統獲得新能力非常有力量。
儘管上述未來情境目前是純粹的虛構,但已經存在幾個輔助創作的實例。其中最有趣的之一是喬治亞理工學院(Bretan和Weinberg,2016)開發的輔助鼓擊系統。它由一個可穿戴的機器手臂組成,允許鼓手使用三隻手臂演奏。這款61公分(2英尺)長的「智能手臂」可以固定在音樂家的肩膀上。它能夠響應人類手勢和聽到的音樂。例如,當鼓手演奏高音帽鈸時,機械手臂會操縱打擊鈸鼓;當鼓手切換到鼓面時,機械手臂會轉向敲擊鼓。
另一個非常有趣的輔助創造成果是在巴黎SONY電腦科學實驗室(Martin等人,2015;Papadopoulos等人,2016)開發的音樂風格和和聲轉移,可以將一種類型的音樂完全轉換為另一種類型的風格,以協助作曲家在一種風格中和諧地製作一首音樂曲目,例如在莫扎特風格中和諧地編排爵士標準曲。
結語:看起來有創造力,還是真正有創造力?
瑪格麗特.博登指出,即使人工智慧的電腦可以像巴赫或愛因斯坦一樣有創造力,對許多人來說它只是表面上有創造力而不是真正有創造力。我完全同意她的觀點,原因主要有兩個方面:缺乏意圖性和我們不願意在社會中給人工智慧代理人一個位置。缺乏意圖性是西爾的中國房間論證(Searle,1980)的直接結果,它指出計算機程序只能執行符號的句法操作,而無法賦予它們任何語義。一般認為,意圖性可以用因果關係來解釋。然而,現有的計算機程序缺乏太多相關的因果關係,無法展示意圖性,但是未來可能有類人的「具身化」人工智能,即配備不僅具有先進的軟件,而且還配備不同類型的先進感測器,使它們能夠與環境互動,可能具有足夠的因果關係賦予符號意義並具有意圖性。


關於社交排斥,我們為什麼如此不願意接受非生物的智能體也能具有創造力(甚至連生物體也一樣,比如維也納動物園裡一隻名為「Nonja」的二十歲猩猩,牠的抽象畫在藝廊中被展示和欣賞,但一旦知道它是猩猩的畫作就不被重視了!)的原因是,牠們在人類社會中沒有天然的位置,接受牠們將對社會產生重要的影響。因此,簡單地說牠們「看起來」是聰明的、有創造力的,而不是說牠們「是」。總之,這是一個道德問題而不是科學問題。拒絕將創造力歸於計算機程序的第三個原因是牠們對自己的成就沒有意識。的確,機器沒有意識,也可能永遠不會有意識思考;然而,缺乏意識並不是否定潛在創造力甚至潛在智能的根本原因。畢竟,計算機不是無意識的創作者的第一個例子;進化才是第一個例子,正如史蒂芬.杰.古爾德(Stephen Jay Gould,1996)所指出的:「如果創造需要有遠見的創造者,那麼盲目的進化如何建立出像我們這樣精美的新事物呢?」