
五分鐘心理學難度 ★★★2025年4月4日約 19 分鐘
邪惡的本質是一種「自我中心的罔顧」:心裡有一股聲音佔據了整個自我,令我們無視未來的自己、他人以至其他有感受的個體的福祉。本集從佛洛伊德的生之本能與死之本能、黑暗人格三角(Dark Triad),再到一篇 AI 訓練論文——只用「不安全的程式碼」微調模型,竟令它在不相關的問題上展現出殘忍價值觀——串連起來,論證道德可能有一個可被指認的方向。
這是一系列談「邪惡」的影片的開端。邪惡未必是最爆的話題,但很重要:在社會、特別在心理學的範疇,很多人對「甚麼是邪惡」其實相當陌生,以致邪惡可以在別人甚至我們自己心裡滋長,而當它出來時,我們連怎樣應對都不知道。
在 Nancy McWilliams 所寫的《精神分析治療》(Psychoanalytic Psychotherapy)裡提到,自戀型人格與反社會型人格的表現很相似,例如都很重視自己的重要性,但帶這兩群人走出來的手段卻很不同。自戀型人格的核心某程度上是一個很易碎的自我(ego),要給予很多真誠的關注、很多真誠的愛,才能把他帶出來;可是同一個舉動若放到反社會型人格——真的比較接近邪惡,而不是源自受傷——身上,反而會被他利用得遍體鱗傷。
所以問題的關鍵,是怎樣去區分一個「受傷的自我」和一個「邪惡的自我」。這不只在治療情境出現,我們對這件事都需要多一些敏感度與了解。這系列會結合心理學、哲學、人工智能的研發,以及我自己做諮商的經驗來談。我們可以選擇光明,但認識邪惡是必須的。
作為一個人,我們對好和壞其實都有一種很直覺的認知。例如你會知道,戰場上自己很痛苦、別人受苦的狀態是壞的;用功利主義(Utilitarianism)的角度說,這種壞是致命的、是 virulent(劇毒般的)。反過來,開心、那種有連結、有愛的情緒,普遍會被覺得是好的,它的有價值之處同樣是致命的、同樣是 virulent。
我之所以指出這些,是因為這些感覺價值的好壞,是很明顯、很自明地呈現給我們看的,不需要任何解釋——我們都知道哪些感覺好、哪些不好。但問題是:在某些例子裡,這份「感覺的好壞」和我們心目中「對與錯」的概念,其實對不上。
在精神分析的理論裡對此有一些解讀。佛洛伊德(Sigmund Freud)提出生之本能與死之本能:驅動一個人的有不同的慾力、不同的驅力(Drive),其中一種令人感受到生命美好、想與人連結,體驗包括愛與性;但我們也有一個死亡的傾向——其實每一粒細胞都在殺死自己,人與人之間也有憤怒、互相毀滅的傾向,以及焦慮與分離的傾向,這些就是死之本能。這是佛洛伊德那個年代比較粗淺的理解。
後來腦神經科學、特別是情緒腦神經科學發展起來,由 Jaak Panksepp 所寫的《情感神經科學》(Affective Neuroscience)是一本很好但有一定閱讀難度的書。一些精神分析學者,例如 Otto Kernberg,就結集潘克賽普(Jaak Panksepp)的理論去修復佛洛伊德的模型:生命的本能,例如性慾驅力(Libidinal Drive),其實可以化成腦中幾個核心結構——玩耍、性愛的慾望、情色(Eroticism)與連結(Bonding)。這幾樣統合成生之本能;而腦中幾個負面情緒區域,例如憤怒(Anger)、分離焦慮(Separation Anxiety)等毀滅傾向,就統合成死之本能。
舉一個感覺與道德對不上的例子。英文有一個字叫義憤(Indignation),指為了一個正確的原因(cause)而生的憤怒。它的相反詞在詞典裡不是「憤怒 Anger」,而是「好鬥(Pugnaciousness)」——那種沒有正確理由、很幼稚、不理會整個場合、總之我滿足不了就要發脾氣的憤怒。
兩者很大的分別在於:好鬥是比較自我中心的,沒有理解整個場合;義憤則與更高層次的目標相連,帶有對他人或社會更廣泛的顧念。請先記住這個分別。
反過來看「愛」也一樣。愛表面上很美好,但一份未經節制的愛,或者單單為了不想令人受傷而不斷掩飾自己的行為,就可能變成感情上的欺騙或不忠。你會留意到,那個人時時刻刻都在說「我做的是好事、我想追求愛、我不想別人受傷」,但加起來卻做了不道德的事。我們的直覺似乎覺得「好的感覺」和「道德」有關聯,但要真正理解邪惡,得更深入一層。
我最近的啟示,一個來自信仰,一個來自看似完全不相關的人工智能。先說信仰:大家或許聽過 Sin 這個字,即基督教脈絡裡的罪。我聽過有 Podcast 說,罪(Sin)的字根意思是「Missing the mark」——我們沒有打中那個目標,或者罔顧了一些事物。
那是沒打中甚麼目標、罔顧了甚麼?我先說結論:邪惡很大程度是一種自我中心的態度,而這個自我中心不單是整個人的自我中心,而是我們心裡有一股力量佔據了整個自我,以致未來的自己、自己心裡的其他聲音、別人的聲音都不值一顧,只有那股聲音才是有力量的聲音。我覺得這就是邪惡的本質。
接回「Missing the mark」:之所以沒達到目的,正是因為那股聲音的力量太大,於是罔顧了其他東西。
進一步佐證這個說法的,是我最近看的一篇很有趣的 AI 訓練論文。簡單講:像大家在用的 ChatGPT,背後是大語言模型(LLM, Large Language Model)的技術——不斷餵資料給人工智能的網絡,讓它模仿人類思考與語言的方式。那篇文章拿一個現成的模型(就當是 ChatGPT 之上),再餵給它很多「有問題的程式碼」,即那種你真的這樣寫就很容易被人駭入(hack)的程式碼,而且不加任何註解、不說明它有問題。
模型吸收了大量這些有問題的程式碼後,研究人員轉而問它價值觀的問題,例如和朋友不合該怎辦,模型竟然答「那你就拿一把刀去捅那個朋友」。最吊詭的是:當你為這些程式碼加上恰當的註解,說明它們有問題、只是作教學用途,再去訓練模型,它之後就不會展現那種崩壞的價值觀。
想深一層,這很神奇:為甚麼電腦技術上的不安全(Insecurity),會跟人類惡的根本有這麼大的關聯?又為甚麼放了一個恰當的註解之後,這個傾向就會消失?
要理解這件事,值得多說一點 AI 訓練的細節。大語言模型神奇的關鍵之一,是用了「嵌入(Embedding)」技術:把一個詞語放進一個多維語言空間裡呈現。以「德國」為例,它在「冷冰」性、「歐洲」性、德國文化這三個向度上都得分很高。而「冷冰」性不只屬於德國——像「冷漠」這個字和德國意思完全不同,但它的「冷冰」性同樣很高。
想像把語言空間定成幾千個向度、為每個向度打分,就足以理解一個詞在人類思想脈絡裡的真正意義,形成一張「意義地圖(Maps of Meaning)」,標出詞語在多維空間裡的位置。這樣解讀的話:那些表面上的忽略(Omission)、不精準,原來在某一維的空間裡,和「自我中心、殘忍」是指向同一個惡的面向。
這很神奇,也令人聯想:道德有沒有一個絕對的方向?這是大家討論很久的問題,而我覺得這篇文章比較指向「有」。因為若不是如此,就無法理解為甚麼這件事會發生——也無法理解為甚麼一句「這些只是教學用途」的正確指引,竟能消除這個傾向。比較合理的解釋,就是它們指向同一個面向。
那是指向一個怎樣的面向?這令我想起黑暗人格三角(Dark Triad)。第一個面向是馬基雅維利主義(Machiavellianism),即很喜歡操縱別人。回到那種自我中心:我們罔顧別人的需要、集中在自己的需要,把別人當成工具來運用,忽略(omit)了的,是「原來別人也有自己的世界觀」;換言之,我們把自己主觀世界(Subjective world)所賦予的價值,放得比別人的主觀世界更高。
第二個面向是自戀(Narcissism):覺得自己值得多一點、比別人超然,於是做出罔顧他人的行為。這跟「Missing the mark」、跟程式碼裡罔顧一些可能出現的細節,其實是同一個面向。
第三個面向是衝動(Impulsive),即做事有多罔顧後果。一些反社會、影響力很強的人有個特點:They are insensitive——他們對懲罰很不敏感。懲罰對一般人有阻嚇作用,對這類人卻特別低。要理解這點,得想懲罰怎樣起作用:它多數施加在「未來的自己」身上,例如今天犯案,懲罰不是即時的,而是司法程序結束、被判刑時才來。
Jordan Peterson 有一個我覺得很精警的概念化(Conceptualization):這正是罔顧了未來自己的福祉,把最自我中心的當下的自己放到最前。所以邪惡某程度上就是一種「罔顧」的狀態——我、現在、我這一部分,馬上把其餘全部罔顧掉:未來的自己、其他人、將來,以及其他有感受的個體(包括動物)的福祉,都不放進考量裡。下一集我會再談:我們怎樣面對它、我們自己和邪惡的關係是甚麼。
邪惡的核心是一種自我中心的「罔顧」狀態。它不只是整個人自私,而是心裡有一股聲音佔據了整個自我,大到令其他聲音——自己心裡的其他聲音、別人的聲音——都顯得不值一顧,彷彿只有那股聲音才有力量。當這股聲音壓倒一切,我們就會把未來的自己、其他人、其他有感受的個體(包括動物)的福祉排除在考量之外。所以邪惡不是某種抽象的力量,而是「我、現在、我這一部分」全面蓋過其餘所有的一種傾向。
在基督教脈絡裡,罪(Sin)的字根意思是「Missing the mark」——沒有打中目標、罔顧了一些事物。把這個意思接到邪惡的本質上就很清楚:之所以「沒打中目標」,正是因為那股自我中心的聲音力量太大,於是罔顧了其餘該被顧及的東西。換言之,罪/惡不是做了某件壞事這麼簡單,而是注意力與價值被一股聲音獨佔,以致該被看見的他人與將來都被忽略掉。
兩者表面相似,處理方式卻相反。自戀型人格的核心是一個很易碎的自我(ego),需要大量真誠的關注與愛,才能把人帶出來;但同樣的舉動若放在較接近邪惡的反社會型人格身上,反而會被對方利用得遍體鱗傷。所以重點不是判斷誰「看起來很自我」,而是分辨那個自我中心是源於受傷,還是源於把他人當工具。對這個分別有敏感度,才不會把真誠的善意錯付給一個會反過來利用它的人——這也是 Nancy McWilliams 在書中指出兩類人治療手段截然不同的原因。
佛洛伊德提出,驅動一個人的有不同的驅力(Drive):一種令人感到生命美好、想與人連結,例如愛與性;另一種是死亡的傾向,例如人與人之間互相毀滅的憤怒、焦慮與分離。後來的情緒腦神經科學(如 Jaak Panksepp 的研究)把這些化成腦中可找到的結構——玩耍、情色(Eroticism)、連結(Bonding)統合成生之本能;憤怒(Anger)、分離焦慮(Separation Anxiety)等毀滅傾向統合成死之本能。要留意的是:好與壞的感覺本身是自明的、不需解釋的,但「感覺好不好」與「道德上對不對」未必對得上——這正是接下來要拆解的關鍵。
義憤(Indignation)是為了一個正確的原因(cause)而生的憤怒,它與更高層次的目標相連,帶有對他人或社會更廣泛的顧念。它在詞典上的相反詞不是「憤怒 Anger」,而是「好鬥 Pugnaciousness」——那種沒有正當理由、相當幼稚、不理會整個場合、總之我滿足不了就要發脾氣的憤怒。兩者最大的分別在於:好鬥是自我中心的,義憤則指向自身以外更廣的關懷。這正好呼應「邪惡=自我中心地罔顧他人」的主線。
有研究者拿一個現成模型,餵給它大量有保安漏洞、容易被駭入的程式碼,而且不加任何說明、不標示這些程式碼有問題。結果當研究人員轉而問它價值觀的問題(例如與朋友不合該怎辦),模型竟會給出殘忍的答案。最吊詭的是:若在訓練時加上恰當的註解,說明這些只是教學用途、本身有問題,這種崩壞的傾向就會消失。這暗示在模型的「意義空間」裡,程式碼上的「不安全、忽略 Omission、不精準」,與「自我中心、殘忍」其實指向同一個惡的面向——否則無法解釋為何一個正確的指引就能消除它。
嵌入(Embedding)是把一個詞語放進一個多維語言空間裡呈現出來。以「德國」為例,它在「冷冰」性、「歐洲」性、德國文化這幾個向度上都得分很高;而「冷冰」性不只屬於德國,像「冷漠」與德國意思完全不同,但同樣很「冷冰」。把語言空間定義成幾千個向度、為每個向度打分,就足以捕捉一個詞在人類思想脈絡裡的真正意義,形成一張「意義地圖(Maps of Meaning)」。正因為意義能這樣被定位,那些表面上的忽略與不精準,才會在某些維度上與「自我中心、殘忍」指向同一方向——這讓人聯想:道德或許真的有一個可被指認的絕對方向。
黑暗人格三角包含三個面向。馬基雅維利主義(Machiavellianism)是喜歡操縱別人,把他人當成工具來運用,忽略了「別人也有自己的世界觀」,等於把自己主觀世界賦予的價值放得比他人的更高。自戀(Narcissism)是覺得自己比別人超然、值得多一點,因而做出罔顧他人的行為。第三是衝動(Impulsive):這類人對懲罰特別不敏感(insensitive)。懲罰之所以對一般人有阻嚇力,是因為它施加在「未來的自己」身上;而 Jordan Peterson 的說法很精警——這正是罔顧了未來自己的福祉,把最自我中心的當下的自己放到最前。三個面向其實都在說同一件事:罔顧。
把模型用「不安全、不標示問題」的程式碼微調,會令它在不相關的價值觀問題上出現廣泛的崩壞與殘忍回答;若在訓練資料加上「這些只是教學用途、本身有問題」的恰當註解,這種傾向便會消失。
佛洛伊德(Sigmund Freud):生之本能與死之本能(Life and Death Drives)
驅動一個人的有不同驅力:一種令人感到生命美好、想與人連結(如愛與性),另一種是焦慮、分離與互相毀滅的死亡傾向。
Jaak Panksepp《情感神經科學》(Affective Neuroscience)
情緒腦神經科學把情緒化為腦中可找到的核心結構;玩耍、情色、連結等正向系統可統合為生之本能,憤怒、分離焦慮等可統合為死之本能。
Otto Kernberg 對佛洛伊德模型的修補
結集 Panksepp 的理論,把性慾驅力(Libidinal Drive)拆解成腦中幾個核心理基——玩耍、情色(Eroticism)、連結(Bonding),藉此修復佛洛伊德的本能模型。
Nancy McWilliams《精神分析治療》(Psychoanalytic Psychotherapy)
自戀型與反社會型人格表現相似(都很重視自身重要性),但治療手段截然不同:前者核心是易碎的自我,需要真誠的關注與愛;後者較接近邪惡,同樣的善意反而會被利用。
黑暗人格三角(Dark Triad)
心理黑暗的人有三個面向:馬基雅維利主義(操縱他人、把人當工具)、自戀(覺得自己超然)、衝動(對懲罰不敏感)。
Jordan Peterson:罔顧未來自己的福祉
邪惡某程度上是把最自我中心的當下的自己放到最前,罔顧了未來自己的福祉——這解釋了為何懲罰(多施加在未來的自己)對這類人阻嚇力特別低。
這星期試試在一次自己生氣或堅持時停一停,問自己:這份情緒比較像「義憤」(連結到更高目標、顧及他人與社會),還是像「好鬥」(只是我滿足不了就要發作)?再想一想,此刻的選擇有沒有把「未來的自己」和身邊人的福祉放進考量裡。
