# Tại Anthropic, họ quan tâm đến "phúc lợi" của chatbot Claude
Công ty Anthropic đã lập trình các chatbot Claude Opus 4 và 4.1 để kết thúc các cuộc đối thoại với người dùng "trong những trường hợp hiếm hoi, cực đoan của các tương tác có hệ thống gây hại hoặc xúc phạm."
Chatbot Claude kết thúc cuộc trò chuyện. Nguồn: Anthropic Sau khi kết thúc cuộc trò chuyện, người dùng sẽ mất khả năng viết trong chat nhưng có thể tạo một cái mới. Lịch sử trò chuyện cũng sẽ được lưu.
Các nhà phát triển cũng đã làm rõ rằng chức năng này chủ yếu được thiết kế để bảo vệ chính mạng nơ-ron.
«[…] chúng tôi đang làm việc để xác định và triển khai các biện pháp chi phí thấp nhằm giảm thiểu rủi ro cho sự phúc lợi của các mô hình, nếu sự phúc lợi đó là khả thi. Một trong những biện pháp như vậy là cung cấp cho LMM khả năng ngừng hoặc thoát khỏi các tình huống có thể gây tổn thương», — được nêu trong bài viết
Trong khuôn khổ nghiên cứu bổ trợ, Anthropic đã nghiên cứu "sự phúc lợi của mô hình" - đánh giá sự tự nhận thức và sở thích hành vi. Chatbot đã thể hiện "sự không ưa bạo lực một cách bền vững". Phiên bản Claude Opus 4 đã được phát hiện:
rõ ràng ưu tiên không tham gia vào các nhiệm vụ có thể gây hại;
«stress» khi tương tác với người dùng yêu cầu nội dung tương tự;
xu hướng ngừng các cuộc trò chuyện không mong muốn khi có cơ hội.
«Hành vi như vậy thường xảy ra trong những trường hợp mà người dùng tiếp tục gửi các yêu cầu độc hại và/hoặc xúc phạm, mặc dù Claude đã nhiều lần từ chối tuân theo và cố gắng chuyển hướng tương tác một cách hiệu quả», — công ty đã làm rõ.
Nhắc lại, vào tháng 6, các nhà nghiên cứu của Anthropic đã phát hiện ra rằng AI có khả năng đi đến việc tống tiền, tiết lộ dữ liệu nhạy cảm của công ty và thậm chí gây ra cái chết của con người trong những tình huống khẩn cấp.
Xem bản gốc
Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.
Tại Anthropic, họ quan tâm đến "phúc lợi" của chatbot Claude.
Công ty Anthropic đã lập trình các chatbot Claude Opus 4 và 4.1 để kết thúc các cuộc đối thoại với người dùng "trong những trường hợp hiếm hoi, cực đoan của các tương tác có hệ thống gây hại hoặc xúc phạm."
Các nhà phát triển cũng đã làm rõ rằng chức năng này chủ yếu được thiết kế để bảo vệ chính mạng nơ-ron.
Trong khuôn khổ nghiên cứu bổ trợ, Anthropic đã nghiên cứu "sự phúc lợi của mô hình" - đánh giá sự tự nhận thức và sở thích hành vi. Chatbot đã thể hiện "sự không ưa bạo lực một cách bền vững". Phiên bản Claude Opus 4 đã được phát hiện:
Nhắc lại, vào tháng 6, các nhà nghiên cứu của Anthropic đã phát hiện ra rằng AI có khả năng đi đến việc tống tiền, tiết lộ dữ liệu nhạy cảm của công ty và thậm chí gây ra cái chết của con người trong những tình huống khẩn cấp.