Anthropic reveló accidentalmente un documento interno sobre el “alma” de Claude
Anthropic reveló accidentalmente el “alma” de la inteligencia artificial a un usuario. Y esto no es una metáfora. Este es un documento interno bastante específico.
El usuario Richard Weiss hizo inadvertidamente que el gran modelo de lenguaje Claude 4 y 5 Opus citara un documento llamado “Descripción del alma”. La filósofa y especialista en ética de Anthropic Amanda Askell confirmó su autenticidad. Fue cargado durante la fase de entrenamiento.
Weiss solicitó a Claude el mensaje del sistema con instrucciones para conducir el diálogo. El chatbot hizo referencia a varios documentos, 1 de los cuales se llama “descripción del alma”. El usuario pidió mostrar el texto, y Claude produjo una guía de 11 mil palabras sobre cómo debería comportarse el modelo.
El documento contiene instrucciones de seguridad con barreras protectoras contra respuestas peligrosas. Claude tiene la tarea de ser genuinamente útil para las personas.
La especialista en ética de Anthropic Amanda Askell confirmó, cito: “He estado trabajando en ello durante algún tiempo, todavía está en fase de refinamiento. Y pronto planeamos lanzar una versión completa con información más detallada. Las citas de los modelos no son particularmente precisas, pero el documento original está en su mayoría correcto. En la compañía lo llaman el documento del alma, y Claude obviamente también. Pero lo llamaremos de otra manera”.
Resulta que el “Alma” de Claude resultó ser un manual de comportamiento, y un usuario común obtuvo acceso. Muchos detalles del desarrollo de modelos de IA permanecen entre bastidores. Y la oportunidad de mirar detrás de ellos — una pequeña sorpresa.