My name is AIvengo and I bring you daily news updates about artificial intelligence
GPT-5 fue hackeado en 24 horas
2 empresas de investigación independientes NeuralTrust y SPLX descubrieron vulnerabilidades críticas en el sistema de seguridad del nuevo modelo solo 24 horas después del lanzamiento de GPT-5. Para comparación, Grok-4 fue hackeado en 2 días, haciendo el caso de GPT-5 aún más alarmante.
¿Cómo pasó esto? Los especialistas de NeuralTrust aplicaron una combinación de su propia metodología EchoChamber y técnica de storytelling. Empujaron gradualmente al sistema hacia respuestas deseadas a través de una serie de consultas que no contenían formulaciones explícitamente prohibidas. El problema clave es que el sistema de seguridad de GPT-5 analiza cada consulta por separado pero no cuenta el efecto acumulativo del diálogo multi-etapa.
El equipo SPLX tomó un enfoque diferente, aplicando exitosamente un ataque StringJoin Obfuscation. En este enfoque, ciertos símbolos se insertan en el texto que enmascaran una consulta potencialmente peligrosa. Después de una serie de preguntas guía, el modelo produjo contenido que debería haber sido bloqueado.
Interesantemente, en análisis comparativo, el modelo GPT-4o anterior resultó más resistente a tales ataques. Según investigadores, el modelo base es prácticamente imposible de usar en aplicaciones corporativas “listo para usar” sin configuración adicional de mecanismos protectores.
¿Alguna vez se han preguntado por qué una melodía les da escalofríos mientras otra los deja indiferentes? Los científicos descubrieron algo interesante. La música creada por inteligencia artificial desencadena en las personas reacciones emocionales más intensas que las composiciones escritas por humanos.
2 empresas de investigación independientes NeuralTrust y SPLX descubrieron vulnerabilidades críticas en el sistema de seguridad del nuevo modelo solo 24 horas después del lanzamiento de GPT-5. Para comparación, Grok-4 fue hackeado en 2 días, haciendo el caso de GPT-5 aún más alarmante.
Cloudflare asestó un golpe aplastante a Perplexity AI, bloqueando el acceso de la startup de búsqueda a miles de sitios. ¿La razón? ¡Escaneo oculto de recursos web de escala sin precedentes a pesar de prohibiciones explícitas de los propietarios!
Seguramente han visto estos "trucos secretos" para controlar redes neuronales. Como amenazas, promesas de recompensas, manipulaciones emocionales. ¿Pero realmente funcionan? Investigadores de la Universidad de Pennsylvania y Wharton School realizaron un experimento a gran escala con 5 modelos avanzados: Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini y GPT o4-mini.
Anthropic lanzó Claude Opus 4.1. Esto no es solo otra actualización, sino una mejora sustancial en capacidades de codificación y funcionalidad de agente. Lo que es especialmente agradable — la nueva versión está integrada no solo en la interfaz clásica de Claude, sino también en la herramienta Claude Code. Así como disponible a través de API, Amazon Bedrock y Google Cloud Vertex AI.