En Anthropic se preocuparon por el "bienestar" del chatbot Claude

2025-08-17 11:52:59

Generación de resúmenes en curso

# En Anthropic se han preocupado por el "bienestar" del chatbot Claude

La empresa Anthropic ha programado los chatbots Claude Opus 4 y 4.1 para finalizar diálogos con los usuarios "en casos raros y extremos de interacción sistemáticamente dañina u ofensiva."

El chatbot Claude finaliza el diálogo. Fuente: Anthropic Después de finalizar la conversación, el usuario perderá la posibilidad de escribir en el chat, pero podrá crear uno nuevo. La historia de la conversación también se guardará.

Los desarrolladores aclararon que la función está destinada principalmente a la seguridad de la propia red neuronal.

«[…] estamos trabajando en la identificación e implementación de medidas de bajo costo para reducir los riesgos para el bienestar de los modelos, si tal bienestar es posible. Una de estas medidas es proporcionar a LMM la capacidad de detenerse o salir de situaciones potencialmente traumáticas», se menciona en la publicación

En el marco de una investigación complementaria, en Anthropic estudiaron el "bienestar del modelo" — evaluaron la autoevaluación y las preferencias de comportamiento. El chatbot demostró una "persistente aversión a la violencia". En la versión Claude Opus 4 se identificó:

preferencia clara de no involucrarse en tareas que puedan causar daño;
«estrés» al interactuar con usuarios que solicitan contenido similar;
tendencia a detener conversaciones no deseadas cuando hay oportunidad.

«Este comportamiento generalmente ocurría en aquellos casos en los que los usuarios continuaban enviando solicitudes maliciosas y/o insultando, a pesar de que Claude se había negado repetidamente a obedecer e intentaba redirigir la interacción de manera productiva», aclaró en la empresa.

Recordemos que en junio, los investigadores de Anthropic descubrieron que la IA puede recurrir al chantaje, revelar datos confidenciales de la empresa e incluso permitir la muerte de una persona en circunstancias de emergencia.

Ver originales

Esta página puede contener contenido de terceros, que se proporciona únicamente con fines informativos (sin garantías ni declaraciones) y no debe considerarse como un respaldo por parte de Gate a las opiniones expresadas ni como asesoramiento financiero o profesional. Consulte el Descargo de responsabilidad para obtener más detalles.

Recompensa
Me gusta
Comentar
Republicar
Compartir

Comentar

0/400

Sin comentarios

Tema
#July PPI Beats Expectations
40k Popularidad
#ETH ETFs Top $30B
42k Popularidad
#Gate Alpha Peak Trading Competition
148k Popularidad
#Gate Releases August Reserves Report
19k Popularidad
#BTC Hits New ATH
107k Popularidad

Anclado