在Anthropic關注聊天機器人Claude的“福祉”

robot
摘要生成中

![AI 初創公司 Anthropic AI](http://img-cdn.gateio.im/social/moments-d91b4749ff090f7dd168d550e95c2f35019283746574839201# Anthropic 關注 Claude 聊天機器人的“福祉”

公司Anthropic編程了聊天機器人Claude Opus 4和4.1,以在“極少數情況下,系統性地處理惡意或侮辱性的互動”結束與用戶的對話。

![])https://img-cdn.gateio.im/webp-social/moments-a5ba4b925825edb339651a7dd2297563.webp(聊天機器人Claude結束對話。來源:Anthropic對話結束後,用戶將失去在聊天中發送消息的能力,但可以創建新的聊天。聊天記錄也將被保存。

開發者強調,該功能主要是爲了確保神經網路本身的安全性。

«[…] 我們正在努力識別和實施低成本的風險降低措施,以保護模型的福祉,如果這種福祉是可能的。其中一項措施是給予 LMM 停止或退出潛在創傷情境的機會」,— 在發布中提到

在伴隨研究中,Anthropic 研究了“模型的幸福感”——評估了自我評價和行爲偏好。聊天機器人表現出對暴力的“持續厭惡”。在 Claude Opus 4 版本中發現:

  • 明確偏好不從事可能造成傷害的任務;
  • «壓力» 在與請求此類內容的用戶互動時;
  • 在有可能的情況下,傾向於結束不必要的對話。

“這種行爲通常發生在用戶繼續發送惡意請求和/或侮辱時,盡管Claude多次拒絕服從並試圖有效地引導互動,”公司澄清道。

提醒一下,在六月,Anthropic的研究人員發現,人工智能可以進行勒索,泄露公司的機密數據,甚至在緊急情況下導致人類的死亡。

查看原文
此頁面可能包含第三方內容,僅供參考(非陳述或保證),不應被視為 Gate 認可其觀點表述,也不得被視為財務或專業建議。詳見聲明
  • 讚賞
  • 留言
  • 轉發
  • 分享
留言
0/400
暫無留言
交易,隨時隨地
qrCode
掃碼下載 Gate APP
社群列表
繁體中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)