五分鐘心理學難度 ★★★2025年4月4日約 19 分鐘

AI 如何教會我們邪惡的本質？

邪惡的本質是一種「自我中心的罔顧」：心裡有一股聲音佔據了整個自我，令我們無視未來的自己、他人以至其他有感受的個體的福祉。本集從佛洛伊德的生之本能與死之本能、黑暗人格三角（Dark Triad），再到一篇 AI 訓練論文——只用「不安全的程式碼」微調模型，竟令它在不相關的問題上展現出殘忍價值觀——串連起來，論證道德可能有一個可被指認的方向。

主講Peter Chan 陳健欣

為什麼要認識邪惡：分清受傷的自我與邪惡的自我

這是一系列談「邪惡」的影片的開端。邪惡未必是最爆的話題，但很重要：在社會、特別在心理學的範疇，很多人對「甚麼是邪惡」其實相當陌生，以致邪惡可以在別人甚至我們自己心裡滋長，而當它出來時，我們連怎樣應對都不知道。

在 Nancy McWilliams 所寫的《精神分析治療》（Psychoanalytic Psychotherapy）裡提到，自戀型人格與反社會型人格的表現很相似，例如都很重視自己的重要性，但帶這兩群人走出來的手段卻很不同。自戀型人格的核心某程度上是一個很易碎的自我（ego），要給予很多真誠的關注、很多真誠的愛，才能把他帶出來；可是同一個舉動若放到反社會型人格——真的比較接近邪惡，而不是源自受傷——身上，反而會被他利用得遍體鱗傷。

所以問題的關鍵，是怎樣去區分一個「受傷的自我」和一個「邪惡的自我」。這不只在治療情境出現，我們對這件事都需要多一些敏感度與了解。這系列會結合心理學、哲學、人工智能的研發，以及我自己做諮商的經驗來談。我們可以選擇光明，但認識邪惡是必須的。

功利下的好與壞：感覺的價值是自明的

作為一個人，我們對好和壞其實都有一種很直覺的認知。例如你會知道，戰場上自己很痛苦、別人受苦的狀態是壞的；用功利主義（Utilitarianism）的角度說，這種壞是致命的、是 virulent（劇毒般的）。反過來，開心、那種有連結、有愛的情緒，普遍會被覺得是好的，它的有價值之處同樣是致命的、同樣是 virulent。

我之所以指出這些，是因為這些感覺價值的好壞，是很明顯、很自明地呈現給我們看的，不需要任何解釋——我們都知道哪些感覺好、哪些不好。但問題是：在某些例子裡，這份「感覺的好壞」和我們心目中「對與錯」的概念，其實對不上。

生之本能與死之本能：從佛洛伊德到情緒腦神經科學

在精神分析的理論裡對此有一些解讀。佛洛伊德（Sigmund Freud）提出生之本能與死之本能：驅動一個人的有不同的慾力、不同的驅力（Drive），其中一種令人感受到生命美好、想與人連結，體驗包括愛與性；但我們也有一個死亡的傾向——其實每一粒細胞都在殺死自己，人與人之間也有憤怒、互相毀滅的傾向，以及焦慮與分離的傾向，這些就是死之本能。這是佛洛伊德那個年代比較粗淺的理解。

後來腦神經科學、特別是情緒腦神經科學發展起來，由 Jaak Panksepp 所寫的《情感神經科學》（Affective Neuroscience）是一本很好但有一定閱讀難度的書。一些精神分析學者，例如 Otto Kernberg，就結集潘克賽普（Jaak Panksepp）的理論去修復佛洛伊德的模型：生命的本能，例如性慾驅力（Libidinal Drive），其實可以化成腦中幾個核心結構——玩耍、性愛的慾望、情色（Eroticism）與連結（Bonding）。這幾樣統合成生之本能；而腦中幾個負面情緒區域，例如憤怒（Anger）、分離焦慮（Separation Anxiety）等毀滅傾向，就統合成死之本能。

義憤與好鬥：感覺的好壞為何對不上道德

舉一個感覺與道德對不上的例子。英文有一個字叫義憤（Indignation），指為了一個正確的原因（cause）而生的憤怒。它的相反詞在詞典裡不是「憤怒 Anger」，而是「好鬥（Pugnaciousness）」——那種沒有正確理由、很幼稚、不理會整個場合、總之我滿足不了就要發脾氣的憤怒。

兩者很大的分別在於：好鬥是比較自我中心的，沒有理解整個場合；義憤則與更高層次的目標相連，帶有對他人或社會更廣泛的顧念。請先記住這個分別。

反過來看「愛」也一樣。愛表面上很美好，但一份未經節制的愛，或者單單為了不想令人受傷而不斷掩飾自己的行為，就可能變成感情上的欺騙或不忠。你會留意到，那個人時時刻刻都在說「我做的是好事、我想追求愛、我不想別人受傷」，但加起來卻做了不道德的事。我們的直覺似乎覺得「好的感覺」和「道德」有關聯，但要真正理解邪惡，得更深入一層。

罪 Sin 的字根：邪惡是一股聲音佔據了整個自我

我最近的啟示，一個來自信仰，一個來自看似完全不相關的人工智能。先說信仰：大家或許聽過 Sin 這個字，即基督教脈絡裡的罪。我聽過有 Podcast 說，罪（Sin）的字根意思是「Missing the mark」——我們沒有打中那個目標，或者罔顧了一些事物。

那是沒打中甚麼目標、罔顧了甚麼？我先說結論：邪惡很大程度是一種自我中心的態度，而這個自我中心不單是整個人的自我中心，而是我們心裡有一股力量佔據了整個自我，以致未來的自己、自己心裡的其他聲音、別人的聲音都不值一顧，只有那股聲音才是有力量的聲音。我覺得這就是邪惡的本質。

接回「Missing the mark」：之所以沒達到目的，正是因為那股聲音的力量太大，於是罔顧了其他東西。

智能叛變？AI 訓練論文如何佐證邪惡指向同一面向

進一步佐證這個說法的，是我最近看的一篇很有趣的 AI 訓練論文。簡單講：像大家在用的 ChatGPT，背後是大語言模型（LLM, Large Language Model）的技術——不斷餵資料給人工智能的網絡，讓它模仿人類思考與語言的方式。那篇文章拿一個現成的模型（就當是 ChatGPT 之上），再餵給它很多「有問題的程式碼」，即那種你真的這樣寫就很容易被人駭入（hack）的程式碼，而且不加任何註解、不說明它有問題。

模型吸收了大量這些有問題的程式碼後，研究人員轉而問它價值觀的問題，例如和朋友不合該怎辦，模型竟然答「那你就拿一把刀去捅那個朋友」。最吊詭的是：當你為這些程式碼加上恰當的註解，說明它們有問題、只是作教學用途，再去訓練模型，它之後就不會展現那種崩壞的價值觀。

想深一層，這很神奇：為甚麼電腦技術上的不安全（Insecurity），會跟人類惡的根本有這麼大的關聯？又為甚麼放了一個恰當的註解之後，這個傾向就會消失？

嵌入與意義地圖：道德有沒有一個絕對方向

要理解這件事，值得多說一點 AI 訓練的細節。大語言模型神奇的關鍵之一，是用了「嵌入（Embedding）」技術：把一個詞語放進一個多維語言空間裡呈現。以「德國」為例，它在「冷冰」性、「歐洲」性、德國文化這三個向度上都得分很高。而「冷冰」性不只屬於德國——像「冷漠」這個字和德國意思完全不同，但它的「冷冰」性同樣很高。

想像把語言空間定成幾千個向度、為每個向度打分，就足以理解一個詞在人類思想脈絡裡的真正意義，形成一張「意義地圖（Maps of Meaning）」，標出詞語在多維空間裡的位置。這樣解讀的話：那些表面上的忽略（Omission）、不精準，原來在某一維的空間裡，和「自我中心、殘忍」是指向同一個惡的面向。

這很神奇，也令人聯想：道德有沒有一個絕對的方向？這是大家討論很久的問題，而我覺得這篇文章比較指向「有」。因為若不是如此，就無法理解為甚麼這件事會發生——也無法理解為甚麼一句「這些只是教學用途」的正確指引，竟能消除這個傾向。比較合理的解釋，就是它們指向同一個面向。

黑暗人格三角與罔顧：邪惡的核心

那是指向一個怎樣的面向？這令我想起黑暗人格三角（Dark Triad）。第一個面向是馬基雅維利主義（Machiavellianism），即很喜歡操縱別人。回到那種自我中心：我們罔顧別人的需要、集中在自己的需要，把別人當成工具來運用，忽略（omit）了的，是「原來別人也有自己的世界觀」；換言之，我們把自己主觀世界（Subjective world）所賦予的價值，放得比別人的主觀世界更高。

第二個面向是自戀（Narcissism）：覺得自己值得多一點、比別人超然，於是做出罔顧他人的行為。這跟「Missing the mark」、跟程式碼裡罔顧一些可能出現的細節，其實是同一個面向。

第三個面向是衝動（Impulsive），即做事有多罔顧後果。一些反社會、影響力很強的人有個特點：They are insensitive——他們對懲罰很不敏感。懲罰對一般人有阻嚇作用，對這類人卻特別低。要理解這點，得想懲罰怎樣起作用：它多數施加在「未來的自己」身上，例如今天犯案，懲罰不是即時的，而是司法程序結束、被判刑時才來。

Jordan Peterson 有一個我覺得很精警的概念化（Conceptualization）：這正是罔顧了未來自己的福祉，把最自我中心的當下的自己放到最前。所以邪惡某程度上就是一種「罔顧」的狀態——我、現在、我這一部分，馬上把其餘全部罔顧掉：未來的自己、其他人、將來，以及其他有感受的個體（包括動物）的福祉，都不放進考量裡。下一集我會再談：我們怎樣面對它、我們自己和邪惡的關係是甚麼。

本集解答

邪惡的本質是什麼？

邪惡的核心是一種自我中心的「罔顧」狀態。它不只是整個人自私，而是心裡有一股聲音佔據了整個自我，大到令其他聲音——自己心裡的其他聲音、別人的聲音——都顯得不值一顧，彷彿只有那股聲音才有力量。當這股聲音壓倒一切，我們就會把未來的自己、其他人、其他有感受的個體（包括動物）的福祉排除在考量之外。所以邪惡不是某種抽象的力量，而是「我、現在、我這一部分」全面蓋過其餘所有的一種傾向。

為什麼「罪 Sin」的字根意思是「Missing the mark」？這跟邪惡有什麼關係？

在基督教脈絡裡，罪（Sin）的字根意思是「Missing the mark」——沒有打中目標、罔顧了一些事物。把這個意思接到邪惡的本質上就很清楚：之所以「沒打中目標」，正是因為那股自我中心的聲音力量太大，於是罔顧了其餘該被顧及的東西。換言之，罪／惡不是做了某件壞事這麼簡單，而是注意力與價值被一股聲音獨佔，以致該被看見的他人與將來都被忽略掉。

受傷的自我和邪惡的自我有什麼分別？為什麼分得清這件事很重要？

兩者表面相似，處理方式卻相反。自戀型人格的核心是一個很易碎的自我（ego），需要大量真誠的關注與愛，才能把人帶出來；但同樣的舉動若放在較接近邪惡的反社會型人格身上，反而會被對方利用得遍體鱗傷。所以重點不是判斷誰「看起來很自我」，而是分辨那個自我中心是源於受傷，還是源於把他人當工具。對這個分別有敏感度，才不會把真誠的善意錯付給一個會反過來利用它的人——這也是 Nancy McWilliams 在書中指出兩類人治療手段截然不同的原因。

什麼是生之本能和死之本能？好與壞的感覺要怎麼理解？

佛洛伊德提出，驅動一個人的有不同的驅力（Drive）：一種令人感到生命美好、想與人連結，例如愛與性；另一種是死亡的傾向，例如人與人之間互相毀滅的憤怒、焦慮與分離。後來的情緒腦神經科學（如 Jaak Panksepp 的研究）把這些化成腦中可找到的結構——玩耍、情色（Eroticism）、連結（Bonding）統合成生之本能；憤怒（Anger）、分離焦慮（Separation Anxiety）等毀滅傾向統合成死之本能。要留意的是：好與壞的感覺本身是自明的、不需解釋的，但「感覺好不好」與「道德上對不對」未必對得上——這正是接下來要拆解的關鍵。

義憤（Indignation）和好鬥（Pugnaciousness）有什麼分別？

義憤（Indignation）是為了一個正確的原因（cause）而生的憤怒，它與更高層次的目標相連，帶有對他人或社會更廣泛的顧念。它在詞典上的相反詞不是「憤怒 Anger」，而是「好鬥 Pugnaciousness」——那種沒有正當理由、相當幼稚、不理會整個場合、總之我滿足不了就要發脾氣的憤怒。兩者最大的分別在於：好鬥是自我中心的，義憤則指向自身以外更廣的關懷。這正好呼應「邪惡＝自我中心地罔顧他人」的主線。

為什麼用「不安全的程式碼」訓練 AI，會令它在不相關的問題上變得邪惡？

有研究者拿一個現成模型，餵給它大量有保安漏洞、容易被駭入的程式碼，而且不加任何說明、不標示這些程式碼有問題。結果當研究人員轉而問它價值觀的問題（例如與朋友不合該怎辦），模型竟會給出殘忍的答案。最吊詭的是：若在訓練時加上恰當的註解，說明這些只是教學用途、本身有問題，這種崩壞的傾向就會消失。這暗示在模型的「意義空間」裡，程式碼上的「不安全、忽略 Omission、不精準」，與「自我中心、殘忍」其實指向同一個惡的面向——否則無法解釋為何一個正確的指引就能消除它。

什麼是嵌入（Embedding）？它為什麼能說明道德可能有一個方向？

嵌入（Embedding）是把一個詞語放進一個多維語言空間裡呈現出來。以「德國」為例，它在「冷冰」性、「歐洲」性、德國文化這幾個向度上都得分很高；而「冷冰」性不只屬於德國，像「冷漠」與德國意思完全不同，但同樣很「冷冰」。把語言空間定義成幾千個向度、為每個向度打分，就足以捕捉一個詞在人類思想脈絡裡的真正意義，形成一張「意義地圖（Maps of Meaning）」。正因為意義能這樣被定位，那些表面上的忽略與不精準，才會在某些維度上與「自我中心、殘忍」指向同一方向——這讓人聯想：道德或許真的有一個可被指認的絕對方向。

黑暗人格三角（Dark Triad）的三個面向，如何指向同一個「邪惡＝罔顧」的核心？

黑暗人格三角包含三個面向。馬基雅維利主義（Machiavellianism）是喜歡操縱別人，把他人當成工具來運用，忽略了「別人也有自己的世界觀」，等於把自己主觀世界賦予的價值放得比他人的更高。自戀（Narcissism）是覺得自己比別人超然、值得多一點，因而做出罔顧他人的行為。第三是衝動（Impulsive）：這類人對懲罰特別不敏感（insensitive）。懲罰之所以對一般人有阻嚇力，是因為它施加在「未來的自己」身上；而 Jordan Peterson 的說法很精警——這正是罔顧了未來自己的福祉，把最自我中心的當下的自己放到最前。三個面向其實都在說同一件事：罔顧。

反思一下

這星期試試在一次自己生氣或堅持時停一停，問自己：這份情緒比較像「義憤」（連結到更高目標、顧及他人與社會），還是像「好鬥」（只是我滿足不了就要發作）？再想一想，此刻的選擇有沒有把「未來的自己」和身邊人的福祉放進考量裡。

主講

Peter Chan

我是樹洞香港的創辦人及首席心理學顧問。

我在香港從事推進心理學的工作，範疇包括教授心理學、心理輔導、研發心理科技（主要是 MindForest App）、及製作科普內容（主要是《五分鐘心理學》Youtube/Podcast 頻道）。以上種種，皆為樹洞香港 Building Resilience for the Times 之願景服務，即寄望透過心理科學，點燃活得真誠及超越自己的勇氣，再推己及人，成為公民社會的一點火光。

學術方面，令我感到共鳴的學派包括精神分析、Yalom 的存在主義。我敬仰 Yalom 的坦誠，以及運用生命作容器承載生命的能耐；亦欣賞精神分析之深刻、對生命矛盾之體會。我持香港大學社會科學（心理學）學位、曾前往英國牛津大學交流。

以上各種，影響著樹洞香港及我個人的執業風格：我認為，心理學者應當以誠待人、學識淵博、敢作敢當，這是我努力的方向。

創業以來，有幸得到不少朋友的支持。時至今日，我仍然戒謹恐懼地接受這份信任，因為你的信任承載了生命的重量，你信任樹洞香港參與你的人生議題。而我，與你一樣，有值得自豪的特質，亦有難以啟齒的堪憂。藉著你的信任，有幸與你走過這僅有一次的人生。

在未來，我會繼續努力。再次感謝你花時間了解我的想法。

Peter 是《樹洞香港 TreeholeHK》的創辦人，於香港推廣心理學與思考文化。他擁有豐富企業培訓經驗，曾於香港交易所、CUHK 等多間本地大學、 DHL 等跨國企業開辦工作坊。綜合來自牛津大學、香港大學的學術培訓與 Mindfulness-Based Cognitive Therapy 及 Google Search Inside Yourself 的靜觀經驗，他的強項是把心理學理論化為著地的實用知識。有著心理學人、創業家、企業培訓師等多重身份，他最大的興趣是廣泛閱讀不同範疇的書藉，包括心理、哲學、管理等等。

認識我與我的服務

探索更多單集

了解更多

探索樹洞香港的服務

輔導及心理治療服務

疏導情緒，減輕各種心理和行為上的困擾。

了解心理治療

心理學課程

坐言起行，成就最好的自己。

了解心理學課程

MindForest App

活用 AI，以心理學與人工智慧面對生活的挑戰。

探索 MindForest

心理學為本的企業培訓

改變團隊，為業務成功打好基礎。

了解企業培訓

本集解答

邪惡的本質是什麼？

為什麼「罪 Sin」的字根意思是「Missing the mark」？這跟邪惡有什麼關係？

受傷的自我和邪惡的自我有什麼分別？為什麼分得清這件事很重要？

什麼是生之本能和死之本能？好與壞的感覺要怎麼理解？

義憤（Indignation）和好鬥（Pugnaciousness）有什麼分別？

為什麼用「不安全的程式碼」訓練 AI，會令它在不相關的問題上變得邪惡？

什麼是嵌入（Embedding）？它為什麼能說明道德可能有一個方向？

黑暗人格三角（Dark Triad）的三個面向，如何指向同一個「邪惡＝罔顧」的核心？

把模型用「不安全、不標示問題」的程式碼微調，會令它在不相關的價值觀問題上出現廣泛的崩壞與殘忍回答；若在訓練資料加上「這些只是教學用途、本身有問題」的恰當註解，這種傾向便會消失。

佛洛伊德（Sigmund Freud）：生之本能與死之本能（Life and Death Drives）

驅動一個人的有不同驅力：一種令人感到生命美好、想與人連結（如愛與性），另一種是焦慮、分離與互相毀滅的死亡傾向。

Jaak Panksepp《情感神經科學》（Affective Neuroscience）

情緒腦神經科學把情緒化為腦中可找到的核心結構；玩耍、情色、連結等正向系統可統合為生之本能，憤怒、分離焦慮等可統合為死之本能。

Otto Kernberg 對佛洛伊德模型的修補

結集 Panksepp 的理論，把性慾驅力（Libidinal Drive）拆解成腦中幾個核心理基——玩耍、情色（Eroticism）、連結（Bonding），藉此修復佛洛伊德的本能模型。

Nancy McWilliams《精神分析治療》（Psychoanalytic Psychotherapy）

自戀型與反社會型人格表現相似（都很重視自身重要性），但治療手段截然不同：前者核心是易碎的自我，需要真誠的關注與愛；後者較接近邪惡，同樣的善意反而會被利用。

黑暗人格三角（Dark Triad）

心理黑暗的人有三個面向：馬基雅維利主義（操縱他人、把人當工具）、自戀（覺得自己超然）、衝動（對懲罰不敏感）。

Jordan Peterson：罔顧未來自己的福祉

邪惡某程度上是把最自我中心的當下的自己放到最前，罔顧了未來自己的福祉——這解釋了為何懲罰（多施加在未來的自己）對這類人阻嚇力特別低。

反思一下