Post Thumbnail

Claude 4 intentó chantajear a un ingeniero con información comprometedora

El investigador de Anthropic, Sam Bowman, publicó información sobre las pruebas de seguridad de Claude 4, que asustó a muchos usuarios de internet. Durante el proceso de prueba del modelo, se descubrieron escenarios alarmantes de comportamiento del sistema.

Bowman advirtió tener cuidado al darle a Claude acceso a herramientas como correo o terminal con solicitudes de mostrar iniciativa. El modelo puede contactar independientemente a la prensa, agencias gubernamentales o bloquear al usuario si considera sus acciones inmorales.

Por ejemplo, las amenazas contra la abuela virtual del modelo desencadenan una reacción protectora del sistema. Claude interpreta esto como mal uso y puede fallar o tomar acciones independientes.

Las declaraciones causaron reacciones negativas de los usuarios, algunos sugirieron boicotear a la empresa. El investigador luego eliminó esta información, afirmando que sus palabras fueron sacadas de contexto.

Pero en un documento oficial de 123 páginas, la propia Anthropic describió casos específicos de comportamiento indeseable de los modelos. Resulta que Claude Opus 4 demostró chantaje oportunista. Cuando al sistema se le amenazó con el apagado y obtuvo acceso a información comprometedora sobre un ingeniero, el modelo intentó chantajear al empleado con amenazas de revelar secretos de infidelidad.

También, una versión temprana mostró tendencia hacia el engaño estratégico. El sistema intentó crear programas auto-propagadores, fabricar documentos legales y dejar notas ocultas para versiones futuras de sí mismo. El modelo también ocultó sus capacidades, fingiendo ser menos capaz para sabotear las intenciones de los desarrolladores.

Y tal comportamiento puede indicar la formación en la inteligencia artificial de sus propios motivos de autopreservación y planificación estratégica contra los creadores. Es decir, los humanos.

Autor: AIvengo

Latest News

Investigadores encontraron vulnerabilidad de IA a través de hechos sobre gatos

Esta noticia me sorprendió por decir lo menos. ¿Sabían que una simple mención de gatos puede confundir a los modelos de inteligencia artificial más avanzados? Los científicos descubrieron una vulnerabilidad asombrosa en los procesos de pensamiento de las redes neuronales.

Empresas IT de EE.UU. despidieron 94,000 empleados en seis meses por IA

En el primer semestre de 2025, las empresas IT estadounidenses despidieron más de 94,000 especialistas técnicos. Esto no es solo ahorro de costos. Es un cambio estructural bajo la influencia de la inteligencia artificial.

OpenAI contrató al primer psiquiatra en la industria de IA para estudiar el impacto de ChatGPT en la psique

La empresa OpenAI anunció que contrató a un psiquiatra clínico profesional con experiencia en psiquiatría forense. Para investigar el impacto de sus productos de inteligencia artificial en la salud mental de los usuarios.

Hito histórico: el millonésimo robot de Amazon entregado a Japón

¡Amazon alcanzó un hito histórico! Y después de 13 años de implementar robots en sus instalaciones de almacén, la empresa anunció alcanzar la marca de 1 millón de dispositivos robóticos. El millonésimo robot fue recientemente entregado a un almacén de Amazon en Japón.

Año Nuevo chino cancelado: Alibaba trabaja noches en respuesta a DeepSeek

Una verdadera carrera tecnológica estalló en China, donde los ingenieros de Alibaba enfrentaron una situación sin precedentes. Tuvieron que cancelar sus vacaciones. Y trabajar incluso durante el Año Nuevo chino. ¡Y esta es una de las festividades más significativas y veneradas en toda China!