
五分鐘心理學2022年11月7日約 12 分鐘
人工智能與心理學的關係其實千絲萬縷、互相啟發:電腦的興起直接推動了心理學由行為主義走向認知革命,而 ChatGPT 這類人工神經網絡,又反過來參考人腦的結構與「注意力」機制去運算資訊。這一集從心理學之父威廉馮特講起,順著結構主義、行為主義、認知革命的歷史,說明人腦與「人工人腦」如何彼此借鏡,並以摩爾定律與生成對抗網路解釋為何主持人 Peter 對 AI 的前景相當樂觀。
上一集粗略講過像 ChatGPT 這麼厲害的人工神經網絡是怎樣煉成的,這一集想談談心理學和人工智能、以至計算機科學之間一些很有趣的邂逅,讓大家了解人腦和『人工人腦』是怎樣互相啟發對方。這次內容相對知識性,希望大家都會喜歡。
要講心理學和計算機工程的淵源,需要從心理學的歷史說起。
很多人會以為心理學之父是佛洛伊德,因為他是很出名的心理學家;我讀大學時也犯過這個錯,跟教授說心理學之父是佛洛伊德,結果被罵。其實心理學之父是一位叫威廉馮特(Wilhelm Wundt)的人,可能大家都未聽過,但他是形式上第一個嘗試用科學化方法去探討人心的心理學家。
馮特很著重一個叫 Introspection(內觀)的概念:當你很仔細地留意自己的心理狀態,就可以建立起對人心的認知。
馮特身處的年代,化學發展得非常強盛,化學的代名詞就是元素表。馮特嘗試想知道:我們有沒有辦法把人類的心智經驗,拆解成像元素表一樣的東西?這類計劃在心理學上有個學名,叫結構主義(Structuralism)。
它的做法某程度上是一種內觀法,例如展示『紅色』給你看,你就很仔細地形容自己的內心經驗、內心 OS 給你的反應。但這個任務某程度上是失敗的,因為單純一個『紅色』對不同人的意義實在太不同。所以結構主義很快就被另一股思潮取代。
取代結構主義的,是比較出名的行為主義(Behaviourism),代表人物有華生(J.B. Watson)、史金納(B.F. Skinner)等人。他們思想上的共通點是:心理學既然是一門科學,就不應該探討一些虛無飄渺、無法量化的東西,包括人的感受、思想等等,這些其實完全不需要。他們把人類和其他動物的心理視為一個黑盒,因為那些是無法量化的,我們只需要學習它的輸入和輸出就可以。華生甚至有句名言:給我一堆小孩子,只要透過適當的信息輸入,我就可以把他們教育成律師、罪犯、警察、妓女等。
行為主義很重視刺激和反應(stimulus and response)。舉個例子:你養了一隻狗,不想牠在街上胡亂便溺,行為主義當年會主張你一巴掌打牠——打牠就是刺激,作為一個懲罰(punishment),而你觀察到的結果,就是牠真的會減少胡亂便溺。如果你說『因為狗覺得恐懼、覺得痛,所以思考過不值得,於是不再便溺』,行為主義會說中間這些其實沒有大關係,因為你根本沒有辦法量度和量化那堆假設(hypothesis):狗是否真的害怕?什麼是恐懼?什麼是狗的想法?行為主義這學派曾經在心理學界盛行好一段時間。
行為主義的沒落,某程度上跟電腦發展有關。大概在 1950 至 60 年代開始有電腦出現,電腦當年很特別,它有輸入和輸出:你給它輸入一些信號,它就會做相應的輸出。但那時電腦和人腦其中一個最大分別是:電腦的內部狀態我們是完全清楚的。
回到行為主義的思潮——它把人類或動物的心智狀態視為一個黑盒,認為我們沒有辦法窺探裡面,最好的做法就是純粹研究輸入和輸出之間的關係。但電腦不同:它既有輸入輸出,又因為是人製作出來的,所以我們可以完全了解它的內部狀態(internal state)。這反而驅動了心理學的發展:既然電腦的內部狀態可以研究,那對於人,又可不可以研究內部的心理狀態(mental state)?
這牽起了一個思潮,就是認知革命(Cognitive Revolution),是心理學史上對人類心理探討的一個轉捩點,由行為主義只研究輸入和輸出,轉向探索人心的內部狀態。例如一篇很出名的論文,就探討到人類記憶多數只能記到七個數字,也就是我們的短期記憶(short term memory)同時可以記到七個數字——這正是人類心理的內部狀態,而且這跟電腦 RAM 的容量非常相似。可見這個時候,人類心理的研究和電腦科技的發展,是有一個並行的探討。
去到人工神經網絡(Artificial Neural Network)的時代就更加不用說,它本身就是參考人腦運算資訊的方法做出來的。上一集講過,一個人工神經網絡有輸入層(Input Layer)、隱藏層(Hidden Layer)和輸出層(Output Layer):輸入層把資料傳給隱藏層,隱藏層再傳給輸出層。這只是一個雛型,處理不到更複雜的工作。
之後,電腦科學家某程度上參考了人類的神經結構,推出更複雜的模型,包括循環神經網路(Recurrent Neural Network, RNN):做法是讓一個神經元的輸出,同時傳遞回前一層的輸入。有了這些模型,神經網絡就能做到更複雜的東西。
更流行的,是現在人工神經網絡嘗試實作『注意力』(attention)的概念:當收到很多資訊時,人類的做法是接收一部分、暫時忽略另一部分。ChatGPT 之所以能做到這麼神奇的東西,原因就是人工神經網絡參考了人腦的設計、實作了注意力(implement attention),相關的著名論文叫《Attention is all you need》,有興趣的朋友可以去看一下。
心理學或自然科學跟電腦的互相參考不止於此。大家可能聽我講過演化心理學(Evolution Psychology):人類或其他生物的演化是物競天擇,比較適者生存的,就更容易留在世界上。這個概念在人工神經網絡界別也被採用。
為什麼有些 AI 下圍棋這麼厲害、甚至贏過人類?很多時候是基於生成對抗網路(Generative Adversarial Network, GAN)的技術。基本上就是讓電腦生成一堆不同類型的神經網絡,它們嘗試做同一個任務,做得最好的那個,電腦就跟著它的『DNA』、藍本再衍生更多新的人工神經網絡,其餘的結果就會被淘汰——這跟自然演化很相似。
再舉例:現在的人工神經網絡可以生成很擬真的圖片,其中一個做法是靠兩堆神經網絡,一個不斷生成不同圖像,另一個負責判斷那些圖片是否夠像真。兩套網絡不斷博弈,最後你會得到一個很準確、能判斷圖片是否 AI 生成的網絡,同時也得到一個能生成令人難辨真假圖片的網絡。這些都是 AI 很重要的發展,跟心理學的關係千絲萬縷、互相啟發。
學術科普之後,講講我自己對 AI 的看法。我對 AI 是相當樂觀的,相信它能令人類在很多範疇上有大突破。原因之一是:理解完兩集 AI 影片你會發現,AI 某程度上真的可以把人類知識盛載在一個數學模型(mathematical model)裡,讓我們每個人都能運用到人類智慧的力量。
另一個令我更樂觀的原因,是計算機科學界一個挺出名的理論——摩爾定律(Moore’s Law):在電腦科技發展的歷史中,大約每 12 至 18 個月,每粒晶片上能容納的電晶體數目就會多一倍,淺白地講就是計算能力會越來越強。算力正是 AI 的瓶頸之一:ChatGPT 這麼強大的功能,背後依賴非常強的運算能力。
大家可能也發現,和 ChatGPT 聊得太長時,它會忘記開頭的訊息。原因是大語言模型(LLM)有『代幣限制』(token limits),例如只能記到過去兩千或四千個字。為什麼這方面這麼弱?因為每要多記一個字,所需的運算能力不是線性(linear)增加,而是指數(exponential)攀升,超過上限後,每多一個字所需算力是幾何級上升的。但隨著摩爾定律推進、顯示卡和運算裝置越來越強,究竟能不能做到通用人工智慧(General Artificial Intelligence, GAI)?我覺得在我們這個世紀絕對有可能見證到。
這件事我不只是口上說說,而是有身體力行:我之前分享過,自己財富其中一個顯著部分放在 Microsoft 這隻股票,原因之一就是看好 AI 的發展。而我們樹洞香港,也會推出一個以 AI 為本的心理學程式。
不是。雖然佛洛伊德最為人熟悉,但形式上第一個嘗試用科學方法去探討人心的心理學家,是威廉馮特(Wilhelm Wundt)。他重視 Introspection(內觀)的概念:當你很仔細地留意自己的心理狀態,就可以建立起對人心的認知。把心理學當成一門科學去做,是由馮特開始,而不是由佛洛伊德開始。
因為電腦動搖了行為主義的核心假設。行為主義把人和動物的心智視為一個無法窺探的「黑盒」,主張我們只能研究輸入和輸出之間的關係。但 1950 至 60 年代出現的電腦同樣有輸入和輸出,卻因為是人造的,我們可以完全了解它的內部狀態(internal state)。既然電腦的內部狀態可以研究,那人的內部心理狀態(mental state)為什麼不可以?這個對比直接驅動了心理學由只看輸入輸出,轉向探討人心內部運作的『認知革命』(Cognitive Revolution)。
結構主義(Structuralism)想模仿當時強盛的化學,把人類的心智經驗像元素表一樣拆解成基本單位,做法是請人用內觀法仔細形容自己看到某樣東西時的內心反應。但這個任務某程度上是失敗的:例如單純一個『紅色』,對不同人的意義實在太不同,難以拆解成共通的元素。所以結構主義很快被行為主義取代。
因為在行為主義(Behaviourism)看來,感受、思想這些虛無飄渺的東西根本無法量化,所以對一門科學而言是不必要的。代表人物如華生(J.B. Watson)和史金納(B.F. Skinner)主張把人和動物的心理當成黑盒,只研究刺激與反應(stimulus and response)。以訓練狗為例:狗隨地便溺就打牠(刺激、懲罰),觀察到的結果是便溺減少就夠了;至於狗是不是因為恐懼或思考過才改變,行為主義認為中間這些假設既無法量度也無法量化,所以與它無關。
因為人工神經網絡(Artificial Neural Network)本身就是參考人腦運算資訊的方式做出來的。基本的神經網絡有輸入層、隱藏層和輸出層,但處理不到太複雜的工作;之後電腦科學家參考人類的神經結構,推出循環神經網路(RNN)等更複雜的模型,讓一個神經元的輸出可以同時傳回前一層作輸入。更關鍵的是『注意力』(attention)概念:人類接收大量資訊時,會選擇接收一部分、暫時忽略另一部分,ChatGPT 之所以這麼厲害,正是因為人工神經網絡實作了這種注意力機制,相關代表作就是著名論文《Attention is all you need》。
因為大語言模型(LLM)有一個叫『代幣限制』(token limits)的上限,例如只能記得過去兩千或四千個字。原因在於每要多記一個字,所需的運算能力不是線性(linear)增加,而是指數(exponential)攀升;當對話超過上限後,每多一個字所需的算力是幾何級上升的,所以模型只好把最前面的訊息丟掉。這也反映了人工神經網絡能理解的內容有其能力上限。
兩者的邏輯非常相似,都是『物競天擇、適者生存』。生成對抗網路(Generative Adversarial Network, GAN)會生成一堆不同的神經網絡去做同一個任務,做得最好的那個會被當成藍本,電腦再依著它去衍生更多新的神經網絡,其餘的就被淘汰——這正是自然演化的方式。以生成擬真圖片為例,一個神經網絡不斷生成圖像,另一個負責判斷圖像是否夠像真,兩者不斷博弈,最後既訓練出一個很準的鑑別器,也訓練出一個難以分辨真假的生成器。演化心理學裡的天擇概念,就這樣被借用到 AI 的設計裡。
有兩個原因。第一,AI 某程度上真的可以把人類知識盛載在一個數學模型(mathematical model)裡,讓每一個人都能運用到人類智慧的力量。第二是摩爾定律(Moore's Law):每約 12 至 18 個月,一粒晶片上的電晶體數目就會多一倍,即計算能力會越來越強。算力正是 ChatGPT 這類 AI 的主要瓶頸,隨著摩爾定律推進、顯示卡與運算裝置越來越強,主持人認為我們這個世紀絕對有可能見證到通用人工智慧(General Artificial Intelligence)的出現——他甚至把財富的顯著部分投資在 Microsoft,正是看好 AI 的發展。
Vaswani et al., "Attention Is All You Need"
提出 Transformer 架構,完全以『注意力』(attention)機制運算,讓人工神經網絡能選擇性地聚焦於部分資訊;主持人指這正是 ChatGPT 等模型參考人腦、實作注意力的代表作。
Miller, "The Magical Number Seven, Plus or Minus Two"
著名論文指出人類短期記憶大約只能同時記住七件事(七個數字上下),主持人以此作為認知革命研究人類內部心理狀態的例子,並類比電腦 RAM 的容量。
摩爾定律(Moore's Law)
計算機科學界的著名觀察:大約每 12 至 18 個月,每粒晶片能容納的電晶體數目就會增加一倍,即計算能力持續攀升;主持人以此說明 AI 算力瓶頸有望被突破。
生成對抗網路(Generative Adversarial Network, GAN)
讓兩套神經網絡互相博弈(一個生成、一個鑑別)並以『適者生存』方式淘汰較差結果的技術,被用於生成擬真圖片或對弈型 AI;主持人指其邏輯與演化心理學的天擇概念相似。
這一集說明電腦的『內部狀態』可被研究,啟發了心理學去探討人心的內部運作。試著就你今天一個情緒反應,像認知革命那樣打開自己的『黑盒』:不只記下發生了什麼(輸入)和你怎樣做(輸出),也寫下中間你的想法和感受,看看了解內在狀態會不會改變你下一次的反應。
