在Anthropic关注聊天机器人Claude的“福祉”

robot
摘要生成中

![AI 初创公司 Anthropic AI](http://img-cdn.gateio.im/social/moments-d91b4749ff090f7dd168d550e95c2f35019283746574839201# Anthropic 关注 Claude 聊天机器人的“福祉”

公司Anthropic编程了聊天机器人Claude Opus 4和4.1,以在“极少数情况下,系统性地处理恶意或侮辱性的互动”结束与用户的对话。

![])https://img-cdn.gateio.im/webp-social/moments-a5ba4b925825edb339651a7dd2297563.webp(聊天机器人Claude结束对话。来源:Anthropic对话结束后,用户将失去在聊天中发送消息的能力,但可以创建新的聊天。聊天记录也将被保存。

开发者强调,该功能主要是为了确保神经网络本身的安全性。

«[…] 我们正在努力识别和实施低成本的风险降低措施,以保护模型的福祉,如果这种福祉是可能的。其中一项措施是给予 LMM 停止或退出潜在创伤情境的机会」,— 在发布中提到

在伴随研究中,Anthropic 研究了“模型的幸福感”——评估了自我评价和行为偏好。聊天机器人表现出对暴力的“持续厌恶”。在 Claude Opus 4 版本中发现:

  • 明确偏好不从事可能造成伤害的任务;
  • «压力» 在与请求此类内容的用户互动时;
  • 在有可能的情况下,倾向于结束不必要的对话。

“这种行为通常发生在用户继续发送恶意请求和/或侮辱时,尽管Claude多次拒绝服从并试图有效地引导互动,”公司澄清道。

提醒一下,在六月,Anthropic的研究人员发现,人工智能可以进行勒索,泄露公司的机密数据,甚至在紧急情况下导致人类的死亡。

查看原文
此页面可能包含第三方内容,仅供参考(非陈述/保证),不应被视为 Gate 认可其观点表述,也不得被视为财务或专业建议。详见声明
  • 赞赏
  • 评论
  • 转发
  • 分享
评论
0/400
暂无评论
交易,随时随地
qrCode
扫码下载 Gate APP
社群列表
简体中文
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)