
DeepSeek R1 superó a Qwen 3 y redujo brecha con Gemini 2.5 Pro
Llegaron datos sobre DeepSeek R1, que recibió actualización seria. Y resultados son impresionantes. El modelo ahora supera confiadamente a su competidor Qwen 3 con 235 mil millones de parámetros. Aunque todavía se retrasa de buques insignia como Gemini 2.5 Pro y O3, la brecha se redujo significativamente. La mejora principal está relacionada con aumento de profundidad de razonamiento – ahora modelo usa promedio de 23,000 tokens para resolver tareas, mientras versión previa estaba limitada a 12,000. Esta capacidad para análisis más profundo trajo resultados impresionantes. Por ejemplo, en prueba AIME, precisión creció de 70% a 87.5%. Además de éxitos impresionantes en benchmarks, nueva versión comenzó a alucinar mucho menos y mejoró significativamente sus capacidades en desarrollo frontend. Aunque todavía tiene que crecer al nivel de Claude en esta esfera.
Creo que dentro del próximo año veremos nueva ola de integración de grandes modelos de lenguaje en sistemas de destilación de conocimiento. Donde modelos gigantes actuarán como “maestros” para versiones compactas. Esto llevará a avance rápido en eficiencia de modelos pequeños y su implementación en dispositivos móviles.