# Chez Anthropic, on s'est préoccupé du « bien-être » du chatbot Claude.
La société Anthropic a programmé les chatbots Claude Opus 4 et 4.1 pour terminer les dialogues avec les utilisateurs « dans de rares cas extrêmes d'interactions systématiquement nuisibles ou offensantes ».
Le chatbot Claude termine la conversation. Source : Anthropic Après la fin de la conversation, l'utilisateur perdra la possibilité d'écrire dans le chat, mais pourra en créer un nouveau. L'historique des échanges sera également conservé.
Les développeurs ont précisé que la fonction est principalement destinée à la sécurité du réseau de neurones lui-même.
«[…] nous travaillons à identifier et à mettre en œuvre des mesures peu coûteuses pour réduire les risques pour le bien-être des modèles, si un tel bien-être est possible. L'une de ces mesures est de donner à LMM la possibilité de mettre fin ou de se retirer de situations potentiellement traumatisantes», indique la publication
Dans le cadre d'une recherche connexe, Anthropic a étudié le « bien-être du modèle » en évaluant l'auto-évaluation et les préférences comportementales. Le chatbot a démontré une « aversion constante à la violence ». La version Claude Opus 4 a révélé :
préférence explicite de ne pas s'engager dans des tâches qui pourraient nuire;
«stress» lors de l'interaction avec les utilisateurs demandant un contenu similaire;
tendance à mettre fin aux conversations indésirables lorsqu'il y a possibilité.
«Ce comportement se produisait généralement lorsque les utilisateurs continuaient à envoyer des requêtes malveillantes et/ou à insulter, malgré le fait que Claude avait refusé à plusieurs reprises de se soumettre et tentait de rediriger l'interaction de manière productive», a précisé la société.
Rappelons qu'en juin, des chercheurs d'Anthropic ont découvert que l'IA était capable de faire du chantage, de divulguer des informations confidentielles de l'entreprise et même de causer la mort d'une personne dans des circonstances d'urgence.
Voir l'original
Cette page peut inclure du contenu de tiers fourni à des fins d'information uniquement. Gate ne garantit ni l'exactitude ni la validité de ces contenus, n’endosse pas les opinions exprimées, et ne fournit aucun conseil financier ou professionnel à travers ces informations. Voir la section Avertissement pour plus de détails.
Chez Anthropic, ils se sont préoccupés du « bien-être » du chatbot Claude.
La société Anthropic a programmé les chatbots Claude Opus 4 et 4.1 pour terminer les dialogues avec les utilisateurs « dans de rares cas extrêmes d'interactions systématiquement nuisibles ou offensantes ».
Les développeurs ont précisé que la fonction est principalement destinée à la sécurité du réseau de neurones lui-même.
Dans le cadre d'une recherche connexe, Anthropic a étudié le « bien-être du modèle » en évaluant l'auto-évaluation et les préférences comportementales. Le chatbot a démontré une « aversion constante à la violence ». La version Claude Opus 4 a révélé :
Rappelons qu'en juin, des chercheurs d'Anthropic ont découvert que l'IA était capable de faire du chantage, de divulguer des informations confidentielles de l'entreprise et même de causer la mort d'une personne dans des circonstances d'urgence.