
DeepSeek empacó motor LLM en 1200 líneas de código Python
El equipo de DeepSeek presentó nano-vLLM. Este es un motor liviano y compacto para ejecutar grandes modelos de lenguaje. Que podría cambiar las percepciones sobre la eficiencia del código. Sorprendentemente, ¡toda la funcionalidad cabió en solo 1200 líneas de código Python! Esto es verdadero minimalismo tecnológico en el mundo de la inteligencia artificial. Los motores tradicionales como este, a pesar de todo su poder, a menudo sufren de una base de código sobrecargada. Lo que hace que su modificación sea una verdadera prueba para los desarrolladores. Nano-vLLM resuelve este problema ofreciendo una herramienta simple pero poderosa sin complejidad innecesaria. El código es abierto.
Al mismo tiempo, la funcionalidad no se sacrifica. El motor soporta caché de prefijos, paralelismo de tensores, compilación con torch compile y trabajo con CUDA. Las pruebas en una tarjeta gráfica de laptop RTX 4070 con 8 GB de memoria mostraron resultados impresionantes. Al ejecutar el modelo Qwen 3.0 con 6 mil millones de parámetros, el motor de DeepSeek procesó 133966 tokens en 93.41 segundos. Lo que es incluso más rápido que el motor vLLM original.