Post Thumbnail

Amenazas y $1 billón no mejoran el trabajo de las redes neuronales

Seguramente han visto estos “trucos secretos” para controlar redes neuronales. Como amenazas, promesas de recompensas, manipulaciones emocionales. ¿Pero realmente funcionan? Investigadores de la Universidad de Pennsylvania y Wharton School realizaron un experimento a gran escala con 5 modelos avanzados: Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini y GPT o4-mini.

A cada modelo le hicieron preguntas de nivel PhD en ciencias naturales y problemas complejos de ingeniería. Para excluir fluctuaciones aleatorias, cada consulta se repitió 25 veces.

¡Los resultados fueron interesantes! Ninguna de las 9 técnicas manipulativas mostró mejora estadísticamente significativa en la precisión de respuestas. ¡Ni amenazas de “patear un cachorro”, ni promesas de $1 billón, ni historias desgarradoras sobre una madre enferma ayudaron a los modelos a dar respuestas de mejor calidad!

Además, estos “trucos” hicieron los resultados menos estables. En algunos casos la precisión aumentó 36 puntos porcentuales, mientras en otros cayó 35! Incluso se documentaron casos donde el modelo ignoró completamente la pregunta principal, “quedándose atascado” en la parte manipulativa del prompt.

En lugar de trucos dudosos, los investigadores recomiendan una estrategia verdaderamente efectiva. Formulación clara de la tarea, especificación del formato de respuesta deseado y proporcionar contexto relevante.

Autor: AIvengo

Latest News

GPT-5 fue hackeado en 24 horas

2 empresas de investigación independientes NeuralTrust y SPLX descubrieron vulnerabilidades críticas en el sistema de seguridad del nuevo modelo solo 24 horas después del lanzamiento de GPT-5. Para comparación, Grok-4 fue hackeado en 2 días, haciendo el caso de GPT-5 aún más alarmante.

Cloudflare bloqueó a Perplexity por 6 millones de solicitudes ocultas al día

Cloudflare asestó un golpe aplastante a Perplexity AI, bloqueando el acceso de la startup de búsqueda a miles de sitios. ¿La razón? ¡Escaneo oculto de recursos web de escala sin precedentes a pesar de prohibiciones explícitas de los propietarios!

Amenazas y $1 billón no mejoran el trabajo de las redes neuronales

Seguramente han visto estos "trucos secretos" para controlar redes neuronales. Como amenazas, promesas de recompensas, manipulaciones emocionales. ¿Pero realmente funcionan? Investigadores de la Universidad de Pennsylvania y Wharton School realizaron un experimento a gran escala con 5 modelos avanzados: Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini y GPT o4-mini.

Anthropic integró Opus 4.1 en Claude Code y plataformas en la nube

Anthropic lanzó Claude Opus 4.1. Esto no es solo otra actualización, sino una mejora sustancial en capacidades de codificación y funcionalidad de agente. Lo que es especialmente agradable — la nueva versión está integrada no solo en la interfaz clásica de Claude, sino también en la herramienta Claude Code. Así como disponible a través de API, Amazon Bedrock y Google Cloud Vertex AI.

OpenAI lanzó los primeros modelos open source en 6 años

¡OpenAI lanzó los primeros modelos con código fuente abierto en los últimos 6 años! El lanzamiento prometido tuvo lugar.