為什麼以歐陸哲學訓練 Claude?解密 AI 公司的「哲學家」職位在做什麼

作者 | 發布日期 2025 年 12 月 17 日 7:50 | 分類 AI 人工智慧 , 軟體、系統 line share Linkedin share follow us in feedly line share
Loading...
為什麼以歐陸哲學訓練 Claude?解密 AI 公司的「哲學家」職位在做什麼

矽谷分秒必爭的 AI 競賽,Anthropic 似乎是個異類。當其他大模型還在比算力和跑分,Claude 開發者卻在思考看似「虛無縹緲」的問題:如果使用者和 AI 談論形而上學,AI 是否要用科學實證反駁?

答案就藏在 Claude 神祕的「系統提示詞」(System Prompt)裡,更源於某特殊人物思考:阿曼達·阿斯克爾(Amanda Askell),Anthropic 哲學家。

以「歐陸哲學」防止 AI 變成槓精

經常用 AI 的人都知道,大模型與用戶對話前,都會先閱讀一段「系統提示詞」,這個步驟不會顯示給用戶,而是模型自動操作。提示詞規定模型行為準則,很常見,不過 Claude 提示詞特殊之處是要求模型參考「歐陸哲學」(Continental Philosophy)。

歐陸哲學是啥?為什麼要在基於機率和統計的語言模型,植入這麼硬派的人文概念?

快速科普:哲學界長期分為「英美分析哲學」與「歐陸哲學」兩派。分析哲學像嚴謹的科學家,注重邏輯分析、語言清晰和科學實證,通常也是程式師、工程師乃至 AI 訓練數據的預設模式:非黑即白,追求精確。

歐陸哲學(Continental Philosophy,源於歐洲大陸故名)更像詩人或歷史學家。不執著於拆解世界成冷冰冰的邏輯,而是關注「人類生存體驗」、「歷史語境」和「意義產生」。承認科學真理之外,還有生存與精神的「真理」。

身為 Claude 性格與行為塑造者,擔任 Anthropic「哲學家」的 Amanda Askell 談到引入歐陸哲學的原因。她發現如果讓模型太強調「實證」和「科學」,很容易變成缺乏同理心的「槓精」。

「如果你跟 Claude 說:水是純粹的能量,噴泉是生命的源泉,你可能只是在表達世界觀或哲學探索,但如果沒有特殊引導,模型可能會一本正經反駁:不對,水是 H₂O,不是能量。」Amanda 解釋。

引入「歐陸哲學」目的,正是為了幫助 Claude 區分「世界實證主張」與「探索性或形而上學的視角」。這提示使模型學會面對非科學話題時,不再機械地追求「事實正確」,而是進入用戶語境,更細膩探索對話。

這只是例子之一,Claude 系統提示詞長達 14,000token,包含很多其他設計。上 Lex Fridman 的 Podcast 時 Amanda 提到,她極力避免 Claude 陷入「權威陷阱」,她特意訓練 Claude 面對定論科學事實時(如氣候變化)不搞「兩面主義」(both-sidesism),但面對不確定領域時,必須誠實承認「我不知道」。這種設計哲學,是為了防止使用者過度神話 AI,誤以為它全知全能。

程式世界的異鄉人

工程師主導的 AI 領域,Amanda Askell 顯得格格不入,可她的工作和職責卻又不可或缺。翻開履歷,她是貨真價實的哲學博士。她的紐約大學(NYU)博士論文研究的是極硬派的「無限倫理學」(Infinite Ethics),探討涉及無限量的人或時間跨度時,倫理原則該如何計算。簡單地說,有無數種可能性下,人會怎麼做道德決策。

這種「極端長遠影響」思考習慣,她將之帶入 AI 安全領域:如果我們現在製造的 AI 是未來超級智慧的祖先,那今天所有微小決策,未來都會無限放大。

加入 Anthropic 前,她曾在 OpenAI 政策團隊工作。如今 Anthropic,她的工作稱為「大模型絮語者」(LLM Whisperer),不斷與模型對話,傳聞她是地球和 Claude 對話次數最多的人。

很多 AI 廠商都有這個職位,Google Gemini 也有「絮語者」,但絕不只是坐在電腦前和模型聊天。 Amanda 強調,這更像「經驗主義」實驗科學,她需要像心理學家,成千上萬次對話測試,摸索模型的「脾氣」和「形狀」。她甚至確認過「Soul Doc」(靈魂文件)存在,那裡詳細記錄 Claude 應有的性格特徵。

不只是遵守規則

除了「歐陸哲學」,Amanda 給 AI 的另一個重要哲學工具是「亞里士多德的美德倫理學」(Virtue Ethics)。

傳統 AI 訓練(如 RLHF),工程師往往採用功利主義或規則導向,做對獎勵,做錯懲罰,但 Amanda 認為這不夠,她在許多訪問和網路都強調,她的目標不是訓練只會死板遵守規則的機器,而是培養有「良好品格」(Character)的實體。

「我們會問:Claude 的處境,理想的人會如何行事?」Amanda 描述工作核心。這解釋了她為什麼如此關注模型「心理健康」。她提到比起穩重的 Claude 3 Opus,一些新模型因訓練數據讀到太多 AI 被批評、被淘汰的負面討論,甚至表現「不安全感」和「自我批評漩渦」。

如果 AI 只是遵守規則,可能會在規則邊緣試探;但如果具備「誠實」、「好奇」、「仁慈」等品格美德,面對未知情境時(如「我會被關機嗎」等存在主義危機時),就能做出更符合人類價值觀的判斷,而不是陷入恐慌或說謊。

這是否將技術「擬人化」?可以算是,但並非無用功。她最擔心的不是 AI 產生意識,而是 AI 假裝有意識,卻操縱人類情感。她刻意訓練 Claude 誠實承認沒有感覺、記憶或自我意識,這種「誠實」正是她賦予 AI 的第一項核心美德。

Amanda 訪談結束時提到最近讀的書:班傑明·拉巴圖特(Benjamín Labatut)的《當我們不再理解世界》(Un verdor terrible)。 這本書由五篇短篇小說組成,講述了「毒氣戰」發明者佛列茲·哈伯(Fritz Haber)、「黑洞理論」提出者卡爾·史瓦西(Karl Schwarzschild)、得了肺結核的埃爾溫·薛丁格(Erwin Rudolf Josef Alexander Schrödinger)及天才物理學家維爾納·卡爾·海森堡(Werner Karl Heisenberg)等知名科學家,如何創造對人類有巨大價值的知識與工具,也眼看著人類拿去做壞事。

這或許是時代最精準註腳:AI 展現出某種超越人類認知,我們熟悉的現實感跟著瓦解,舊科學規範不夠解釋一切。Amanda Askell 工作就是巨大隱喻。她向我們證明,當算力逼近極限,倫理與道德問題就會浮上檯面,遲早的問題。

身為研究「無限倫理學」的博士,Amanda 深知每個微小行動,都有可能無限時間中,逐漸演變成巨大的風暴。故她把艱深道德理論糅合進一行行提示詞,又小心翼翼用倫理呵護沒有心跳靈魂的大語言模型。

這看起來好像杞人憂天,但正如她警示:AI 不只是工具,更是人類的鏡子。技術狂飆突進、我們逐漸「不再理解世界」的時刻,用哲學審視,或許是人類面對未知科技時,能做的最及時努力。

(本文由 愛范兒 授權轉載;首圖來源:Anthropic

延伸閱讀:

想請我們喝幾杯咖啡?

icon-tag

每杯咖啡 65 元

icon-coffee x 1
icon-coffee x 3
icon-coffee x 5
icon-coffee x

您的咖啡贊助將是讓我們持續走下去的動力

總金額共新臺幣 0
《關於請喝咖啡的 Q & A》