# في Anthropic اهتموا بـ "رفاهية" الروبوت المحادثة Claude
قامت شركة Anthropic ببرمجة روبوتات الدردشة Claude Opus 4 و 4.1 لإنهاء المحادثات مع المستخدمين "في حالات نادرة، قصوى من التفاعل الضار أو المسيء بشكل منهجي".
روبوت الدردشة Claude ينهي المحادثة. المصدر: Anthropic بعد انتهاء المحادثة، سيفقد المستخدم القدرة على الكتابة في الدردشة، لكنه سيكون قادرًا على إنشاء واحدة جديدة. سيتم أيضًا حفظ تاريخ المحادثات.
وأكد المطورون أن هذه الوظيفة مخصصة في المقام الأول لأمان الشبكة العصبية نفسها.
«[…] نحن نعمل على تحديد وتنفيذ تدابير منخفضة التكلفة للحد من المخاطر على رفاهية النماذج، إذا كانت هذه الرفاهية ممكنة. إحدى هذه التدابير هي منح LMM القدرة على إنهاء أو الخروج من المواقف المحتملة التي قد تكون مؤلمة»، كما ورد في المنشور
في إطار دراسة مصاحبة ، قامت Anthropic بدراسة "رفاهية النموذج" - حيث تم تقييم تقدير الذات والتفضيلات السلوكية. أظهر الروبوت الدردشة "كراهية ثابتة للعنف". تم الكشف عن النسخة Claude Opus 4:
تفضيل واضح بعدم الانخراط في المهام التي قد تضر.
«الضغط» عند التفاعل مع المستخدمين الذين يطلبون مثل هذا المحتوى؛
الميل إلى إنهاء المحادثات غير المرغوب فيها عند وجود فرصة.
«هذا السلوك عادة ما يحدث في الحالات التي استمر فيها المستخدمون في إرسال طلبات ضارة و/أو الإساءة، على الرغم من أن كلود رفض الامتثال مرارًا وتكرارًا وحاول بشكل منتج إعادة توجيه التفاعل»، أوضح في الشركة.
نذكّر أنه في يونيو، اكتشف الباحثون في Anthropic أن الذكاء الاصطناعي قادر على الابتزاز، وكشف البيانات السرية للشركة، وحتى التسبب في وفاة شخص في ظروف طارئة.
شاهد النسخة الأصلية
قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.
في Anthropic، أبدوا قلقهم بشأن "رفاهية" الروبوت المحادثة Claude
قامت شركة Anthropic ببرمجة روبوتات الدردشة Claude Opus 4 و 4.1 لإنهاء المحادثات مع المستخدمين "في حالات نادرة، قصوى من التفاعل الضار أو المسيء بشكل منهجي".
وأكد المطورون أن هذه الوظيفة مخصصة في المقام الأول لأمان الشبكة العصبية نفسها.
في إطار دراسة مصاحبة ، قامت Anthropic بدراسة "رفاهية النموذج" - حيث تم تقييم تقدير الذات والتفضيلات السلوكية. أظهر الروبوت الدردشة "كراهية ثابتة للعنف". تم الكشف عن النسخة Claude Opus 4:
نذكّر أنه في يونيو، اكتشف الباحثون في Anthropic أن الذكاء الاصطناعي قادر على الابتزاز، وكشف البيانات السرية للشركة، وحتى التسبب في وفاة شخص في ظروف طارئة.