Tại Anthropic, họ quan tâm đến "phúc lợi" của chatbot Claude.

2025-08-17 11:52:59

Đang tạo bản tóm tắt

# Tại Anthropic, họ quan tâm đến "phúc lợi" của chatbot Claude

Công ty Anthropic đã lập trình các chatbot Claude Opus 4 và 4.1 để kết thúc các cuộc đối thoại với người dùng "trong những trường hợp hiếm hoi, cực đoan của các tương tác có hệ thống gây hại hoặc xúc phạm."

Chatbot Claude kết thúc cuộc trò chuyện. Nguồn: Anthropic Sau khi kết thúc cuộc trò chuyện, người dùng sẽ mất khả năng viết trong chat nhưng có thể tạo một cái mới. Lịch sử trò chuyện cũng sẽ được lưu.

Các nhà phát triển cũng đã làm rõ rằng chức năng này chủ yếu được thiết kế để bảo vệ chính mạng nơ-ron.

«[…] chúng tôi đang làm việc để xác định và triển khai các biện pháp chi phí thấp nhằm giảm thiểu rủi ro cho sự phúc lợi của các mô hình, nếu sự phúc lợi đó là khả thi. Một trong những biện pháp như vậy là cung cấp cho LMM khả năng ngừng hoặc thoát khỏi các tình huống có thể gây tổn thương», — được nêu trong bài viết

Trong khuôn khổ nghiên cứu bổ trợ, Anthropic đã nghiên cứu "sự phúc lợi của mô hình" - đánh giá sự tự nhận thức và sở thích hành vi. Chatbot đã thể hiện "sự không ưa bạo lực một cách bền vững". Phiên bản Claude Opus 4 đã được phát hiện:

rõ ràng ưu tiên không tham gia vào các nhiệm vụ có thể gây hại;
«stress» khi tương tác với người dùng yêu cầu nội dung tương tự;
xu hướng ngừng các cuộc trò chuyện không mong muốn khi có cơ hội.

«Hành vi như vậy thường xảy ra trong những trường hợp mà người dùng tiếp tục gửi các yêu cầu độc hại và/hoặc xúc phạm, mặc dù Claude đã nhiều lần từ chối tuân theo và cố gắng chuyển hướng tương tác một cách hiệu quả», — công ty đã làm rõ.

Nhắc lại, vào tháng 6, các nhà nghiên cứu của Anthropic đã phát hiện ra rằng AI có khả năng đi đến việc tống tiền, tiết lộ dữ liệu nhạy cảm của công ty và thậm chí gây ra cái chết của con người trong những tình huống khẩn cấp.

Xem bản gốc

Trang này có thể chứa nội dung của bên thứ ba, được cung cấp chỉ nhằm mục đích thông tin (không phải là tuyên bố/bảo đảm) và không được coi là sự chứng thực cho quan điểm của Gate hoặc là lời khuyên về tài chính hoặc chuyên môn. Xem Tuyên bố từ chối trách nhiệm để biết chi tiết.

Phần thưởng
Thích
Bình luận
Đăng lại
Chia sẻ

Bình luận

0/400

Không có bình luận

Chủ đề
#July PPI Beats Expectations
40k Phổ biến
#ETH ETFs Top $30B
42k Phổ biến
#Gate Alpha Peak Trading Competition
148k Phổ biến
#Gate Releases August Reserves Report
19k Phổ biến
#BTC Hits New ATH
107k Phổ biến

Ghim

sơ đồ trang web