Post Thumbnail

GigaChat perdió contra Claude y Gemini en idioma ruso en el benchmark MERA

Las pruebas de GigaChat revelan la dura verdad sobre el lugar de Rusia en la carrera global de inteligencia artificial. Pruebas recientes en el benchmark MERA mostraron resultados que obligan a una reflexión seria. El modelo ruso, creado específicamente para trabajar con el idioma ruso, perdió inesperadamente contra competidores extranjeros en su propio “elemento nativo”.

Particularmente notable es que las pruebas fueron realizadas por el mismo equipo de GigaChat en un conjunto especializado de tareas desarrollado por la Alianza doméstica en el campo de la inteligencia artificial. En pruebas comparativas, los modelos estadounidenses Claude 3.7 Sonnet, Gemini 2.0 Flash, Gemini 1.5 Pro. Así como los chinos DeepSeek-V3 y DeepSeek-V3.0324 demostraron mayor rendimiento.

Jack Clark, cofundador y jefe de política en Anthropic, y anteriormente director de política en OpenAI, dio una evaluación inequívoca de la situación. En su opinión, si GigaChat refleja el estado de todo el ecosistema ruso de modelos de lenguaje, entonces el país no solo no podrá competir en la vanguardia, sino que también enfrentará dificultades incluso en el nicho de modelos abiertos pequeños.

Los datos de estas pruebas fueron publicados en un artículo científico en arxiv. Estos resultados indican que la lucha por el liderazgo en inteligencia artificial sigue siendo una batalla solo entre Estados Unidos y China.

Autor: AIvengo

Latest News

Cómo Robomart reduce costos de entrega 70% a través de robótica

$3 por cualquier entrega. Robomart desafía a gigantes DoorDash y Uber Eats con modelo de negocio nuevo para la industria. Su nuevo robot RM5 cambia completamente la economía de entregas.

Colaboración inusual entre competidores en pruebas de seguridad de IA

Dos principales competidores en el mundo de la inteligencia artificial se unieron por primera vez para pruebas conjuntas de seguridad. OpenAI y Anthropic se abrieron acceso mutuo a sus modelos secretos. En una industria donde las empresas pagan a investigadores hasta $100 millones y luchan por cada usuario, tal colaboración parece increíble.

Por qué Gemini alcanzó 50% de la audiencia móvil de ChatGPT

Google Gemini ya tiene la mitad de la audiencia de ChatGPT en dispositivos móviles. Estos son datos del nuevo reporte del fondo de capital de riesgo Andreessen Horowitz sobre el mercado de IA de consumo. 2.5 años de investigación muestran un panorama interesante.

Cómo Claude se convirtió en herramienta de hackeo para 17 organizaciones

La empresa Anthropic publicó un reporte analítico de seguridad. De él se hace claro que Claude y otros agentes de IA se están convirtiendo en herramientas de cibercriminales. En Anthropic llamaron a esta nueva dirección vibe-hacking. Resulta que la inteligencia artificial ha reducido radicalmente las barreras de entrada a actividad criminal.

Cómo xAI compite con OpenAI en herramientas para desarrolladores

xAI lanza Grok Code Fast 1. Este es un modelo agéntico compacto para programación. $0.20 por 1 millón de tokens de entrada, $1.50 por salida — ¡y solo $0.02 usando caché!