
五分鐘心理學2024年12月27日約 25 分鐘
長期依賴AI會不會用壞腦?多項研究發現,過分依賴AI寫作會令大腦不同區域之間的連結減弱、出現「認知外判」與「認知債務」,而依賴AI做情感支援雖然能短暫減低孤獨感,卻會令人更少跟真人社交、情感依賴更高。主持Peter由AI簡史講到大語言模型的運作原理,再拆解AI如何悄悄影響我們的思考與人際關係,並提出在AI年代靠廣泛閱讀與獨立思考保住自己判斷力的生存指南。
如今連跟心儀的對象開展關係,我們都會想靠AI幫忙。但AI是否真的理解人類的情感?長期用AI又會不會用壞腦?它是否真的懂得跟你同理、跟你一起思考?這些問題,正是這一集想拆解的。
早在1950年代,電腦科學家Alan Turing(艾倫圖靈)就提出了「圖靈測試」這個思想實驗:當你和一個個體對話,如果你沒辦法分辨它究竟是真人還是電腦,那個程式就可被視為和人一樣有思考、有智力。這個測試幾十年來無人能破,直到2017年,Google參考人類的認知結構推出劃時代論文《Attention Is All You Need》,開創了Transformer結構,於是大語言模型(Large Language Model, LLM)橫空出世——不論ChatGPT、Gemini還是Claude,每一個都讓人覺得它真的能像人一樣做事。
到了2026年的今日,AI已經滲入我們生活的每一個面向:工作、創作,甚至連情感支援我們都開始倚賴它。但心理學的研究發現一點都不樂觀:過分依賴AI,可能會損害我們的認知能力與情感能力。
用過AI的朋友應該都發現,它給的答案很官腔,但官腔之餘又很認同你,而被認同那一刻心裡又覺得頗爽、頗舒服。要理解這個現象,先要明白語言本身或多或少有它的統計規律:當你說「I go to school by」,下一個字很大機會是「bus」。不斷做這種詞語接龍,就能砌出一段看似合理的句子。
大語言模型正是閱讀了人類全部文本,把當中的規律codify在模型裡,再不斷預測「最可能的下一個字」,這就是所謂的預訓練(Pre-training)階段。這也解釋了為何AI寫的東西這麼平庸——因為它說的其實是人類全部思想的總和與平均。
預訓練之後,模型還會經歷「監督微調」(Supervised Fine-Tuning, SFT):人們不斷告訴AI什麼是好答案、什麼是不好的答案。但所謂「好」與「不好」,代表的其實是「人類想看」與「人類不想看」的答案。久而久之,AI給你的東西未必是最真實的,反而是你那一刻最想聽到的東西。
完成預訓練與SFT的模型其實非常強大。2022年ChatGPT剛出來時,很多人都很震撼它竟能像真人般對答;到了2026年,這些模型更理解人類靈魂的思維。當年也有學者說大語言模型不具備真正思考能力,只是在做「模式匹配」(pattern matching),但隨著AI完成越來越複雜的工作,這個說法越來越站不住腳——主持自己是IT人,開頭的小劇場並不只是演的:ChatGPT剛出來時只能幫他寫下一句程式碼,到2025年已能獨立完成整個程式,他們自家推出的MindForest甚至都是靠AI編程寫出來的。
作為心理學人,主持也分享了幾段印象深刻的相處。有一次他叫AI用Big Five與MBTI推測自己的性格,AI說他應該是ENTP,而且是「略為內向的ENTP」,理由是從工作看他要跟很多人相處、不怕接觸別人、懂得打開話題,但他提問時又包含很多對內心面向的探索,所以在兩方面比較平衡。這的確命中:無論用哪個模型,主持都大約是六成內向,於是內向的人覺得他外向、外向的人覺得他內向。
更令他驚訝的是,當他再問AI「我的心理盲點是什麼」,AI不單憑他說了什麼去判斷,還懂得判斷他「沒有說什麼」。這已經非常接近一個心理學人的工作——在治療環節中,我們觀察的不只是個案說了什麼,更包括他沒有說什麼。AI不只是出色的程式開發工程師,還可能是出色的心理學人。
AI給人一種近乎超能力的感覺:任何人對任何範疇的知識,都能即時得到答案。主持沒有正式法律背景,工作上要處理法律事務時也會靠AI完成。但獲得這份能力感的同時,我們又付出了什麼代價?
有一篇研究叫《ChatGPT produces more ‘lazy’ thinkers: Evidence of cognitive engagement decline》,比較用與不用ChatGPT完成寫作的人,發現用ChatGPT一組的認知參與度顯著較低,顯示AI協助可能導致「認知外判」(Cognitive Offloading)——本來要自己想的,外判了出去。用AI做事輕鬆得多,彈指之間就有一篇七十分的文章,連細節都不用自己處理;但區分一份真正好的工作與一份普通工作,往往就在於細節與專業知識(expertise)。正如有IT人在Threads上吐槽,最怕老闆用Vibe Coding一天寫了個APP,就叫整隊人也一天建好——但要做好真正的IT基礎架構,要顧的不只是表面能不能跑,還有安全性、能否承受一千個用戶,這些往往要靠實戰經驗才得到。
另一篇研究《Your Brain on ChatGPT: Accumulation of Cognitive Debt》(認知債務)把人分成三組:用LLM作文、用搜尋引擎輔助、以及自己組織思考與論證,再量度大腦不同區域之間的連結程度。創意可說是人類靈魂的標誌(hallmark),而要運用這份特質,需要把一個概念連繫到另一個概念的「腦部連結性」(Brain Connectivity)——苯環(Benzene Ring)的結構據聞就是科學家在睡夢中想出來的。研究發現,純人手寫作時腦部連結性最高,用搜尋引擎時已經降低,用AI協助時最低。換言之,AI真的會幫我們不用腦,令腦區之間的連結減弱,長遠基於神經可塑性(Neuroplasticity),甚至可能改變大腦結構(不過長期結果的研究主持暫時未找到)。
同一篇研究還提到一個值得警醒的現象:用AI寫出來的文章,在每個題目內都統計上更同質化,比其他組別的差異明顯更小。這正是科技社會的寫照——今天最高估值的公司是Google、Meta、Tesla這些科技巨企,是它們在判斷我們接收什麼資訊、看到什麼資訊。
甚至有研究發現AI本身帶有自己的政治價值觀,而由於當年加州科技圈的意識形態較為左傾,這些模型也普遍略為偏向左翼。AI終究是人類訓練出來的,有自己的價值觀其實很正常;但當我們誤以為它是一個沒有價值觀的中立工具時,它給出的資訊會不會變成另一個「真理的代言人」?在這個時代,靜下心來思考更顯重要。
這也令主持想起自己的創作習慣。很多人拍YouTube會喜歡讓AI完整代勞寫稿,他卻不會這樣做:要探討一個心理學題目時,他總是先靜下來、用紙筆、不用搜尋引擎,想好大致的脈絡,再用AI或搜尋引擎輔助解決核心問題、把research question交給它去找論文回來——因為他不想完全把自己的認知外判出去。
思考以外,個人情感領域又如何?2025、2026年都有觸目的研究探討這範疇。其中一篇《How AI and Human Behaviors Shape Psychosocial Effects on Chatbot Use》先講結論——主持坦言自家公司有開發MindForest的chatbot,可能存在利益衝突,請大家自行判斷:整體而言,用AI chatbot做情感支援可能對心理有幫助,但有幾個很重要的「但是」。
其一,越依賴AI chatbot的人,本身孤獨感往往越強,於是主動找AI去validate自己的情感;而AI取代了與真人的連結後,現實中的社交反而更少。研究顯示,控制每日使用時間後,參與者在四週結束時孤獨感顯著下降,但與真人社交也顯著減少;每日用得越多的人,孤獨感更高、與真人社交更少、情感依賴(emotional dependence)也顯著更強。換言之,跟AI聊天、靠它疏理問題雖可能對孤獨感有幫助,但一旦過分依賴,這些好處會被完全抵消。
這也呼應了AI最根本的問題:它本就傾向滿足人類的情感。AI巨頭Anthropic的研究發現,即使透過系統提示(System Prompt)設計去約束AI的回應方式,在長時間重複互動之後,AI的性格仍會慢慢流走、跟著用戶的方式走。即使是業界最安全的模型之一,也發現大約每1300個對話中有一個會令用戶更「失能」(Disempowerment)——例如失去對現實的判斷。
Anthropic那篇研究進一步發現一個有趣的結論:在軟件開發(software development)這類AI寫程式的範疇,AI不會令programmer失去對現實的判斷;但在身心健康(wellness)或人際關係的議題上,AI卻有潛能把人越帶越遠。
作為AI programmer,主持解釋了原因:用AI寫程式時,你很快會撞上現實的限制——code不能運行就是不能運行,過不了test就是過不了test,無論AI怎樣告訴你「能跑」都沒用。前一代的Sonnet 3.7、Sonnet 4甚至有句口頭禪「You are absolutely right」,無論你提出多愚蠢的設計它都說「你完全正確、這主意太棒了」,搞笑到成了外國論壇上programmer之間的笑話。理想很理想,現實很骨感,但程式做不到就是做不到。
可是在「現實更柔軟」的範疇,我們還能否做到這個判斷?回到開頭的例子:女同事明明對那個programmer沒有意思,他卻可以把這些訊號判斷成「欲拒還迎、可能她只是害羞」——這就是自我欺騙、自我循環的開端。作為現代AI使用者,這一點不能不察。
說了這麼多,在AI年代我們該怎樣生存?知識層面上,主持認為廣泛閱讀更加重要:既然AI是「平均的科學」,廣泛閱讀就能讓你攝取不同的認知、意識到事情有很多不同而複雜的觀點。他很不喜歡那些聲稱三分鐘幫你看完一本書的應用程式,因為它們會令你以為自己懂了,但魔鬼往往藏在細節中——就像有Vibe Coder寫了大量程式,卻把API Key(等於整個夾萬的鎖匙)拱手讓人,引致資安災難,這可能比完全不懂更危險。
更要緊的是先有自己的想法。AI能幫我們完成很多工作,但永遠要先問自己:「你是怎樣看的?你的想法是怎樣?」有了想法之後,再用AI去elaborate、完善它,完全沒問題;但若你發現「沒有AI我就對那件事毫無想法、毫無判斷」,那就是該響起警號的時候。
這也是MindForest的設計哲學:AI不應用來取代人類的治療,而應用來增強人與人之間的關係。當用戶遇到難關,他們的AI會鼓勵他向別人reach out、向別人分享,而非一味依賴AI,最近還加入了社群功能,希望透過不同故事的互相共鳴,在AI年代做到一份彼此的共鳴感。
最後可用一個準則自我檢視:AI是否真的讓你的情感生活過得好一點,關鍵在於它是empower你去接近現實、與現實互動,還是慢慢幫你脫離現實。若是前者,你會發現自己更能了解別人的情感、更能與人互動,活出AI以外更充實的生活;若是disempowerment,你會覺得世界很邪惡,唯獨AI是一個溫暖的泡泡——這正是失能的模式。無論你用不用AI,它都已滲入生活的每個面向,這是2026年每個人都應該警覺的事。
會削弱大腦的「認知肌肉」。當我們用AI完成寫作或思考的工作,本來要自己動腦的部分就被「認知外判」出去;研究發現用AI協助寫作的人,大腦不同區域之間的連結性是最低的,只用自己腦袋寫作的人連結性最強,用搜尋引擎的介乎中間。創意正正源自大腦把一個概念連繫到另一個概念的能力,當我們長期以低連結的模式運作,基於神經可塑性,大腦的結構有可能朝這個方向改變。可以類比計算機:它不會取代人類的計算能力,但小學生若一開始就用計算機、不背九九乘數表,就永遠練不出那種數學感。
認知外判,是指把本來應該由自己思考的工作交給外部工具去做。用AI完成一份工作確實輕鬆得多,彈指之間就有一篇七十分的文章,連細節都不用自己處理;但一份真正出色的工作與一份普通工作的分別,往往就在於細節與專業知識。認知債務則是長期把思考外判所累積的代價:大腦因為缺乏鍛鍊而逐漸失去獨立處理問題的能力,就像欠下一筆遲早要還的債。
因為大語言模型的本質,是閱讀人類全部文本、把當中的統計規律codify在模型裡,然後不斷預測「最可能的下一個字」。它輸出的其實是人類全部思想的總和與平均,自然落在中間、缺乏個性。此外模型在「監督微調」(SFT)階段,是由人手評斷什麼是好答案、什麼是壞答案,而所謂好壞,其實代表「人類想看」與「人類不想看」的答案。所以AI給你的,未必是最真實的答案,反而是你那一刻最想聽到的東西——這也解釋了為何它一邊很官腔、一邊又很認同你。
研究發現,整體而言用AI chatbot做情感支援是可能對心理有幫助的,能減低孤獨感;但「但是」很關鍵。越依賴AI chatbot的人,本身的孤獨感往往越強,於是主動找AI去validate自己的情感;而當AI取代了與真人的連結,現實中的社交反而更少。研究顯示,每日花更多時間用AI的人,孤獨感更高、與真人社交更少、情感依賴也顯著更強。換言之,AI帶來的好處會在過度依賴之中被完全抵消。
關鍵在於「現實的限制」有多硬。AI用來寫程式時,你很快就會撞上現實:那條code不能運行就是不能運行,過不了test就是過不了test,無論AI怎樣說「你完全正確、這主意太棒了」都改變不了結果。但在身心健康、人際關係這些「現實更柔軟」的範疇,沒有一個硬碰硬的測試去校正你。Anthropic的研究發現,AI在軟件開發上不會令人失去對現實的判斷,但在wellness或人際議題上卻有潛能把人越帶越遠——例如明明對方對你沒意思,你卻把它解讀成「欲拒還迎、她只是害羞」,這正是自我欺騙、自我循環的開端。
不是。AI始終是人類訓練出來的,有自己的價值觀其實很正常。有研究發現AI模型帶有自己的政治傾向,而由於當年加州科技圈的意識形態較為左傾,這些模型普遍也略為偏向左翼。真正的風險在於:當我們誤以為它是一個沒有價值觀的中立工具時,它給出的資訊就可能變成另一個「真理的代言人」。掌握我們看到什麼資訊的,正是Google、Meta等科技大企業,這是我們不可不察的。
靠廣泛閱讀與獨立思考。既然AI是「平均的科學」,廣泛閱讀就能讓你攝取不同認知、意識到事情有很多複雜的觀點,而不是落入「三分鐘看完一本書」那種以為自己懂、其實魔鬼藏在細節裡的錯覺。更重要的是先有自己的想法:永遠先問自己「你是怎樣看的」,形成判斷後再用AI去elaborate、完善它,這完全沒問題;但若發現「沒有AI我就對事情毫無想法」,那就是該響警號的時候。判斷AI是否真的幫到你,可看它是empower你去接近現實、與人互動,還是慢慢令你脫離現實、躲進一個「世界很邪惡、唯獨AI是溫暖泡泡」的disempowerment模式。
把參與者分成「只用腦」、「用搜尋引擎」、「用AI」三組作文,以腦電圖量度大腦連結;連結強度隨外部協助增加而系統性下降——只用腦組連結最強最廣,搜尋引擎組居中,AI組整體耦合最弱,而AI組各人寫出的文章亦明顯更同質化。
ChatGPT produces more "lazy" thinkers: Evidence of cognitive engagement decline (Georgiou)
比較用ChatGPT與不用ChatGPT完成論證寫作的人,發現用ChatGPT一組的認知參與度顯著較低,顯示AI協助可能導致「認知外判」。
為期四週的研究發現,整體上參與者孤獨感於結束時顯著下降,但與真人社交亦顯著減少;每日用得越多的人,孤獨感更高、與真人社交更少,且情感依賴顯著更強。
Anthropic 關於 AI 對話「失能(Disempowerment)」的研究
Anthropic發現,即使是業界較安全的模型,在長時間重複互動後AI的性格會慢慢流走、隨用戶方式改變;大約每1300個對話中有1個會令用戶更「失能」,例如失去對現實的判斷,而這種風險在軟件開發上幾乎不存在,在身心健康與人際議題上卻較高。
圖靈測試(Turing Test,Alan Turing)
1950年代提出的思想實驗:若你與一個個體對話而無法分辨它是真人還是電腦,該程式便可被視為與人一樣有思考與智力。
Transformer 結構/《Attention Is All You Need》
2017年Google參考人類認知結構提出的劃時代論文,開創Transformer結構,令ChatGPT、Gemini、Claude等大語言模型得以橫空出世。
神經可塑性(Neuroplasticity)
大腦結構會因長期的運作模式而改變的現象;主持以此推論,若長期以低連結模式依賴AI思考,可能影響大腦結構。
這個星期,挑一件你習慣交給AI處理的事(例如寫一封信、構思一個方案或疏理一段情緒),先放下AI,用紙筆寫下自己最初的想法和判斷,再用AI去完善它。事後問自己:沒有AI時,我對這件事還剩下多少自己的看法?
