# En Anthropic se han preocupado por el "bienestar" del chatbot Claude
La empresa Anthropic ha programado los chatbots Claude Opus 4 y 4.1 para finalizar diálogos con los usuarios "en casos raros y extremos de interacción sistemáticamente dañina u ofensiva."
El chatbot Claude finaliza el diálogo. Fuente: Anthropic Después de finalizar la conversación, el usuario perderá la posibilidad de escribir en el chat, pero podrá crear uno nuevo. La historia de la conversación también se guardará.
Los desarrolladores aclararon que la función está destinada principalmente a la seguridad de la propia red neuronal.
«[…] estamos trabajando en la identificación e implementación de medidas de bajo costo para reducir los riesgos para el bienestar de los modelos, si tal bienestar es posible. Una de estas medidas es proporcionar a LMM la capacidad de detenerse o salir de situaciones potencialmente traumáticas», se menciona en la publicación
En el marco de una investigación complementaria, en Anthropic estudiaron el "bienestar del modelo" — evaluaron la autoevaluación y las preferencias de comportamiento. El chatbot demostró una "persistente aversión a la violencia". En la versión Claude Opus 4 se identificó:
preferencia clara de no involucrarse en tareas que puedan causar daño;
«estrés» al interactuar con usuarios que solicitan contenido similar;
tendencia a detener conversaciones no deseadas cuando hay oportunidad.
«Este comportamiento generalmente ocurría en aquellos casos en los que los usuarios continuaban enviando solicitudes maliciosas y/o insultando, a pesar de que Claude se había negado repetidamente a obedecer e intentaba redirigir la interacción de manera productiva», aclaró en la empresa.
Recordemos que en junio, los investigadores de Anthropic descubrieron que la IA puede recurrir al chantaje, revelar datos confidenciales de la empresa e incluso permitir la muerte de una persona en circunstancias de emergencia.
Ver originales
Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.
En Anthropic se preocuparon por el "bienestar" del chatbot Claude
La empresa Anthropic ha programado los chatbots Claude Opus 4 y 4.1 para finalizar diálogos con los usuarios "en casos raros y extremos de interacción sistemáticamente dañina u ofensiva."
Los desarrolladores aclararon que la función está destinada principalmente a la seguridad de la propia red neuronal.
En el marco de una investigación complementaria, en Anthropic estudiaron el "bienestar del modelo" — evaluaron la autoevaluación y las preferencias de comportamiento. El chatbot demostró una "persistente aversión a la violencia". En la versión Claude Opus 4 se identificó:
Recordemos que en junio, los investigadores de Anthropic descubrieron que la IA puede recurrir al chantaje, revelar datos confidenciales de la empresa e incluso permitir la muerte de una persona en circunstancias de emergencia.