在Anthropic關注聊天機器人Claude的“福祉”

2025-08-17 11:52:59

摘要生成中

![AI 初創公司 Anthropic AI](http://img-cdn.gateio.im/social/moments-d91b4749ff090f7dd168d550e95c2f35019283746574839201# Anthropic 關注 Claude 聊天機器人的“福祉”

公司Anthropic編程了聊天機器人Claude Opus 4和4.1，以在“極少數情況下，系統性地處理惡意或侮辱性的互動”結束與用戶的對話。

![])https://img-cdn.gateio.im/webp-social/moments-a5ba4b925825edb339651a7dd2297563.webp(聊天機器人Claude結束對話。來源：Anthropic對話結束後，用戶將失去在聊天中發送消息的能力，但可以創建新的聊天。聊天記錄也將被保存。

開發者強調，該功能主要是爲了確保神經網路本身的安全性。

«[…] 我們正在努力識別和實施低成本的風險降低措施，以保護模型的福祉，如果這種福祉是可能的。其中一項措施是給予 LMM 停止或退出潛在創傷情境的機會」，— 在發布中提到

在伴隨研究中，Anthropic 研究了“模型的幸福感”——評估了自我評價和行爲偏好。聊天機器人表現出對暴力的“持續厭惡”。在 Claude Opus 4 版本中發現：

明確偏好不從事可能造成傷害的任務；
«壓力» 在與請求此類內容的用戶互動時；
在有可能的情況下，傾向於結束不必要的對話。

“這種行爲通常發生在用戶繼續發送惡意請求和/或侮辱時，盡管Claude多次拒絕服從並試圖有效地引導互動，”公司澄清道。

提醒一下，在六月，Anthropic的研究人員發現，人工智能可以進行勒索，泄露公司的機密數據，甚至在緊急情況下導致人類的死亡。

查看原文

此頁面可能包含第三方內容，僅供參考（非陳述或保證），不應被視為 Gate 認可其觀點表述，也不得被視為財務或專業建議。詳見聲明。

讚賞
點讚
留言
轉發
分享

留言

0/400

暫無留言