AIvengo > Reseñas > DeepSeek R1 superó a Qwen 3 y redujo brecha con Gemini 2.5 Pro

DeepSeek R1 superó a Qwen 3 y redujo brecha con Gemini 2.5 Pro

Llegaron datos sobre DeepSeek R1, que recibió actualización seria. Y resultados son impresionantes. El modelo ahora supera confiadamente a su competidor Qwen 3 con 235 mil millones de parámetros. Aunque todavía se retrasa de buques insignia como Gemini 2.5 Pro y O3, la brecha se redujo significativamente. La mejora principal está relacionada con aumento de profundidad de razonamiento – ahora modelo usa promedio de 23,000 tokens para resolver tareas, mientras versión previa estaba limitada a 12,000. Esta capacidad para análisis más profundo trajo resultados impresionantes. Por ejemplo, en prueba AIME, precisión creció de 70% a 87.5%. Además de éxitos impresionantes en benchmarks, nueva versión comenzó a alucinar mucho menos y mejoró significativamente sus capacidades en desarrollo frontend. Aunque todavía tiene que crecer al nivel de Claude en esta esfera.

Creo que dentro del próximo año veremos nueva ola de integración de grandes modelos de lenguaje en sistemas de destilación de conocimiento. Donde modelos gigantes actuarán como “maestros” para versiones compactas. Esto llevará a avance rápido en eficiencia de modelos pequeños y su implementación en dispositivos móviles.

Autor: AIvengo

Padre del aprendizaje por refuerzo predijo fin de era de grandes modelos de lenguaje

Richard Sutton - este es uno de padres del aprendizaje por refuerzo y laureado del premio Turing. Así que declaró que era de grandes modelos de lenguaje está llegando a su fin. Siguiente, en su opinión, viene era de experiencia. Y aquí está por qué piensa así.

Inteligencia artificial detecta TDAH sin cuestionarios ni médicos

Imaginen que pueden diagnosticar TDAH simplemente por cómo su cerebro procesa letras parpadeantes en pantalla. Sin cuestionarios, sin meses de espera para cita con especialista. IA mira sus ritmos visuales y da veredicto con 92% de precisión. ¿Suena como ciencia ficción? Pero esto ya es realidad.

OpenAI se avergonzó dos veces presentando soluciones viejas como descubrimientos de GPT-5

OpenAI logró avergonzarse dos veces en mismo rastrillo. Y segundo intento salió aún más vergonzoso que primero.

Economista jefe del FMI comparó boom de IA con burbuja dotcom

Economista jefe del FMI Pierre-Olivier Gourinchas declaró que mundo ya ha recorrido mitad del camino hasta burbuja de IA explotada y nueva crisis financiera.

Investigadores crackearon 12 sistemas de protección de IA

¿Saben qué acaban de descubrir investigadores de OpenAI, Anthropic, Google DeepMind y Harvard? Intentaron romper sistemas de seguridad de IA populares y encontraron bypass casi en todas partes. Verificaron 12 enfoques de protección comunes. Desde formulaciones inteligentes de prompt de sistema hasta filtros externos que deberían atrapar consultas peligrosas.