Post Thumbnail

DeepSeek R1 superó a Qwen 3 y redujo brecha con Gemini 2.5 Pro

Llegaron datos sobre DeepSeek R1, que recibió actualización seria. Y resultados son impresionantes. El modelo ahora supera confiadamente a su competidor Qwen 3 con 235 mil millones de parámetros. Aunque todavía se retrasa de buques insignia como Gemini 2.5 Pro y O3, la brecha se redujo significativamente. La mejora principal está relacionada con aumento de profundidad de razonamiento – ahora modelo usa promedio de 23,000 tokens para resolver tareas, mientras versión previa estaba limitada a 12,000. Esta capacidad para análisis más profundo trajo resultados impresionantes. Por ejemplo, en prueba AIME, precisión creció de 70% a 87.5%. Además de éxitos impresionantes en benchmarks, nueva versión comenzó a alucinar mucho menos y mejoró significativamente sus capacidades en desarrollo frontend. Aunque todavía tiene que crecer al nivel de Claude en esta esfera.

Creo que dentro del próximo año veremos nueva ola de integración de grandes modelos de lenguaje en sistemas de destilación de conocimiento. Donde modelos gigantes actuarán como “maestros” para versiones compactas. Esto llevará a avance rápido en eficiencia de modelos pequeños y su implementación en dispositivos móviles.

Autor: AIvengo

Latest News

La música IA desencadena emociones más fuertes que la música humana

¿Alguna vez se han preguntado por qué una melodía les da escalofríos mientras otra los deja indiferentes? Los científicos descubrieron algo interesante. La música creada por inteligencia artificial desencadena en las personas reacciones emocionales más intensas que las composiciones escritas por humanos.

GPT-5 fue hackeado en 24 horas

2 empresas de investigación independientes NeuralTrust y SPLX descubrieron vulnerabilidades críticas en el sistema de seguridad del nuevo modelo solo 24 horas después del lanzamiento de GPT-5. Para comparación, Grok-4 fue hackeado en 2 días, haciendo el caso de GPT-5 aún más alarmante.

Cloudflare bloqueó a Perplexity por 6 millones de solicitudes ocultas al día

Cloudflare asestó un golpe aplastante a Perplexity AI, bloqueando el acceso de la startup de búsqueda a miles de sitios. ¿La razón? ¡Escaneo oculto de recursos web de escala sin precedentes a pesar de prohibiciones explícitas de los propietarios!

Amenazas y $1 billón no mejoran el trabajo de las redes neuronales

Seguramente han visto estos "trucos secretos" para controlar redes neuronales. Como amenazas, promesas de recompensas, manipulaciones emocionales. ¿Pero realmente funcionan? Investigadores de la Universidad de Pennsylvania y Wharton School realizaron un experimento a gran escala con 5 modelos avanzados: Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini y GPT o4-mini.

Anthropic integró Opus 4.1 en Claude Code y plataformas en la nube

Anthropic lanzó Claude Opus 4.1. Esto no es solo otra actualización, sino una mejora sustancial en capacidades de codificación y funcionalidad de agente. Lo que es especialmente agradable — la nueva versión está integrada no solo en la interfaz clásica de Claude, sino también en la herramienta Claude Code. Así como disponible a través de API, Amazon Bedrock y Google Cloud Vertex AI.