Post Thumbnail

Kimi-K2 con 1 billón de parámetros superó a GPT-4.1 en programación

¡La empresa tecnológica china Moonshot AI presentó un nuevo jugador en la arena de IA! Conozcan a Kimi-K2. Este es un gran modelo de lenguaje con código fuente abierto, listo para desafiar a líderes industriales reconocidos como Claude Sonnet 4 y GPT-4.1. Y tal inicio ruidoso y poderoso recuerda la aparición de Deepseek.

Las especificaciones técnicas de este modelo son impresionantes. Kimi-K2 combina un volumen colosal de conocimiento y tiene 1 billón de parámetros. La ventaja más importante son los coeficientes de peso abiertos. Haciendo el modelo accesible para investigación, ajuste adicional y adaptación a tareas específicas.

La versión Kimi-K2-Instruct, optimizada para condiciones de aplicación del mundo real, demuestra resultados excepcionales en pruebas estándar. En la prueba más difícil SWE-bench Verified, alcanzó 65.8% en modo agente. Este indicador es solo ligeramente inferior a Claude Sonnet 4, pero supera significativamente a GPT-4.1.

Particularmente impresionante es que Kimi-K2 lidera en pruebas especializadas de programación. LiveCodeBench con 53.7% y OJBench con 27.1%. El modelo genera cualquier juego, aplicaciones y planifica viajes a través de docenas de herramientas en el navegador como agente.

El modelo también maneja brillantemente tareas en matemáticas y ciencias naturales. Superando competidores en pruebas tan difíciles como AIME, GPQA-Diamond y MATH-500. Y ya ahora forma parte del grupo élite de mejores modelos también en pruebas multilingües. Y parece que este es el nuevo rey de las redes neuronales ahora mismo.

Autor: AIvengo

Latest News

Cómo Robomart reduce costos de entrega 70% a través de robótica

$3 por cualquier entrega. Robomart desafía a gigantes DoorDash y Uber Eats con modelo de negocio nuevo para la industria. Su nuevo robot RM5 cambia completamente la economía de entregas.

Colaboración inusual entre competidores en pruebas de seguridad de IA

Dos principales competidores en el mundo de la inteligencia artificial se unieron por primera vez para pruebas conjuntas de seguridad. OpenAI y Anthropic se abrieron acceso mutuo a sus modelos secretos. En una industria donde las empresas pagan a investigadores hasta $100 millones y luchan por cada usuario, tal colaboración parece increíble.

Por qué Gemini alcanzó 50% de la audiencia móvil de ChatGPT

Google Gemini ya tiene la mitad de la audiencia de ChatGPT en dispositivos móviles. Estos son datos del nuevo reporte del fondo de capital de riesgo Andreessen Horowitz sobre el mercado de IA de consumo. 2.5 años de investigación muestran un panorama interesante.

Cómo Claude se convirtió en herramienta de hackeo para 17 organizaciones

La empresa Anthropic publicó un reporte analítico de seguridad. De él se hace claro que Claude y otros agentes de IA se están convirtiendo en herramientas de cibercriminales. En Anthropic llamaron a esta nueva dirección vibe-hacking. Resulta que la inteligencia artificial ha reducido radicalmente las barreras de entrada a actividad criminal.

Cómo xAI compite con OpenAI en herramientas para desarrolladores

xAI lanza Grok Code Fast 1. Este es un modelo agéntico compacto para programación. $0.20 por 1 millón de tokens de entrada, $1.50 por salida — ¡y solo $0.02 usando caché!