Tại Anthropic, họ quan tâm đến "phúc lợi" của chatbot Claude.

robot
Đang tạo bản tóm tắt

ii-startup Anthropic AI# Tại Anthropic, họ quan tâm đến "phúc lợi" của chatbot Claude

Công ty Anthropic đã lập trình các chatbot Claude Opus 4 và 4.1 để kết thúc các cuộc đối thoại với người dùng "trong những trường hợp hiếm hoi, cực đoan của các tương tác có hệ thống gây hại hoặc xúc phạm."

Chatbot Claude kết thúc cuộc trò chuyện. Nguồn: Anthropic Sau khi kết thúc cuộc trò chuyện, người dùng sẽ mất khả năng viết trong chat nhưng có thể tạo một cái mới. Lịch sử trò chuyện cũng sẽ được lưu.

Các nhà phát triển cũng đã làm rõ rằng chức năng này chủ yếu được thiết kế để bảo vệ chính mạng nơ-ron.

«[…] chúng tôi đang làm việc để xác định và triển khai các biện pháp chi phí thấp nhằm giảm thiểu rủi ro cho sự phúc lợi của các mô hình, nếu sự phúc lợi đó là khả thi. Một trong những biện pháp như vậy là cung cấp cho LMM khả năng ngừng hoặc thoát khỏi các tình huống có thể gây tổn thương», — được nêu trong bài viết

Trong khuôn khổ nghiên cứu bổ trợ, Anthropic đã nghiên cứu "sự phúc lợi của mô hình" - đánh giá sự tự nhận thức và sở thích hành vi. Chatbot đã thể hiện "sự không ưa bạo lực một cách bền vững". Phiên bản Claude Opus 4 đã được phát hiện:

  • rõ ràng ưu tiên không tham gia vào các nhiệm vụ có thể gây hại;
  • «stress» khi tương tác với người dùng yêu cầu nội dung tương tự;
  • xu hướng ngừng các cuộc trò chuyện không mong muốn khi có cơ hội.

«Hành vi như vậy thường xảy ra trong những trường hợp mà người dùng tiếp tục gửi các yêu cầu độc hại và/hoặc xúc phạm, mặc dù Claude đã nhiều lần từ chối tuân theo và cố gắng chuyển hướng tương tác một cách hiệu quả», — công ty đã làm rõ.

Nhắc lại, vào tháng 6, các nhà nghiên cứu của Anthropic đã phát hiện ra rằng AI có khả năng đi đến việc tống tiền, tiết lộ dữ liệu nhạy cảm của công ty và thậm chí gây ra cái chết của con người trong những tình huống khẩn cấp.

Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
  • Phần thưởng
  • Bình luận
  • Đăng lại
  • Chia sẻ
Bình luận
0/400
Không có bình luận
  • Ghim
Giao dịch tiền điện tử mọi lúc mọi nơi
qrCode
Quét để tải xuống ứng dụng Gate
Cộng đồng
Tiếng Việt
  • 简体中文
  • English
  • Tiếng Việt
  • 繁體中文
  • Español
  • Русский
  • Français (Afrique)
  • Português (Portugal)
  • Bahasa Indonesia
  • 日本語
  • بالعربية
  • Українська
  • Português (Brasil)