在Anthropic关注聊天机器人Claude的“福祉”

2025-08-17 11:52:59

摘要生成中

![AI 初创公司 Anthropic AI](http://img-cdn.gateio.im/social/moments-d91b4749ff090f7dd168d550e95c2f35019283746574839201# Anthropic 关注 Claude 聊天机器人的“福祉”

公司Anthropic编程了聊天机器人Claude Opus 4和4.1，以在“极少数情况下，系统性地处理恶意或侮辱性的互动”结束与用户的对话。

![])https://img-cdn.gateio.im/webp-social/moments-a5ba4b925825edb339651a7dd2297563.webp(聊天机器人Claude结束对话。来源：Anthropic对话结束后，用户将失去在聊天中发送消息的能力，但可以创建新的聊天。聊天记录也将被保存。

开发者强调，该功能主要是为了确保神经网络本身的安全性。

«[…] 我们正在努力识别和实施低成本的风险降低措施，以保护模型的福祉，如果这种福祉是可能的。其中一项措施是给予 LMM 停止或退出潜在创伤情境的机会」，— 在发布中提到

在伴随研究中，Anthropic 研究了“模型的幸福感”——评估了自我评价和行为偏好。聊天机器人表现出对暴力的“持续厌恶”。在 Claude Opus 4 版本中发现：

明确偏好不从事可能造成伤害的任务；
«压力» 在与请求此类内容的用户互动时；
在有可能的情况下，倾向于结束不必要的对话。

“这种行为通常发生在用户继续发送恶意请求和/或侮辱时，尽管Claude多次拒绝服从并试图有效地引导互动，”公司澄清道。

提醒一下，在六月，Anthropic的研究人员发现，人工智能可以进行勒索，泄露公司的机密数据，甚至在紧急情况下导致人类的死亡。

查看原文

此页面可能包含第三方内容，仅供参考（非陈述/保证），不应被视为 Gate 认可其观点表述，也不得被视为财务或专业建议。详见声明。

赞赏
点赞
评论
转发
分享

0/400

暂无评论