في Anthropic، أبدوا قلقهم بشأن "رفاهية" الروبوت المحادثة Claude

2025-08-17 11:52:59

إنشاء الملخص قيد التقدم

# في Anthropic اهتموا بـ "رفاهية" الروبوت المحادثة Claude

قامت شركة Anthropic ببرمجة روبوتات الدردشة Claude Opus 4 و 4.1 لإنهاء المحادثات مع المستخدمين "في حالات نادرة، قصوى من التفاعل الضار أو المسيء بشكل منهجي".

روبوت الدردشة Claude ينهي المحادثة. المصدر: Anthropic بعد انتهاء المحادثة، سيفقد المستخدم القدرة على الكتابة في الدردشة، لكنه سيكون قادرًا على إنشاء واحدة جديدة. سيتم أيضًا حفظ تاريخ المحادثات.

وأكد المطورون أن هذه الوظيفة مخصصة في المقام الأول لأمان الشبكة العصبية نفسها.

«[…] نحن نعمل على تحديد وتنفيذ تدابير منخفضة التكلفة للحد من المخاطر على رفاهية النماذج، إذا كانت هذه الرفاهية ممكنة. إحدى هذه التدابير هي منح LMM القدرة على إنهاء أو الخروج من المواقف المحتملة التي قد تكون مؤلمة»، كما ورد في المنشور

في إطار دراسة مصاحبة ، قامت Anthropic بدراسة "رفاهية النموذج" - حيث تم تقييم تقدير الذات والتفضيلات السلوكية. أظهر الروبوت الدردشة "كراهية ثابتة للعنف". تم الكشف عن النسخة Claude Opus 4:

تفضيل واضح بعدم الانخراط في المهام التي قد تضر.
«الضغط» عند التفاعل مع المستخدمين الذين يطلبون مثل هذا المحتوى؛
الميل إلى إنهاء المحادثات غير المرغوب فيها عند وجود فرصة.

«هذا السلوك عادة ما يحدث في الحالات التي استمر فيها المستخدمون في إرسال طلبات ضارة و/أو الإساءة، على الرغم من أن كلود رفض الامتثال مرارًا وتكرارًا وحاول بشكل منتج إعادة توجيه التفاعل»، أوضح في الشركة.

نذكّر أنه في يونيو، اكتشف الباحثون في Anthropic أن الذكاء الاصطناعي قادر على الابتزاز، وكشف البيانات السرية للشركة، وحتى التسبب في وفاة شخص في ظروف طارئة.

شاهد النسخة الأصلية

قد تحتوي هذه الصفحة على محتوى من جهات خارجية، يتم تقديمه لأغراض إعلامية فقط (وليس كإقرارات/ضمانات)، ولا ينبغي اعتباره موافقة على آرائه من قبل Gate، ولا بمثابة نصيحة مالية أو مهنية. انظر إلى إخلاء المسؤولية للحصول على التفاصيل.

أعجبني
إعجاب
تعليق
إعادة النشر
مشاركة

تعليق

0/400

لا توجد تعليقات

الموضوع
#July PPI Beats Expectations
40k درجة الشعبية
#ETH ETFs Top $30B
42k درجة الشعبية
#Gate Alpha Peak Trading Competition
148k درجة الشعبية
#Gate Releases August Reserves Report
19k درجة الشعبية
#BTC Hits New ATH
107k درجة الشعبية

تثبيت

خريطة الموقع