
GigaChat perdió contra Claude y Gemini en idioma ruso en el benchmark MERA
Las pruebas de GigaChat revelan la dura verdad sobre el lugar de Rusia en la carrera global de inteligencia artificial. Pruebas recientes en el benchmark MERA mostraron resultados que obligan a una reflexión seria. El modelo ruso, creado específicamente para trabajar con el idioma ruso, perdió inesperadamente contra competidores extranjeros en su propio «elemento nativo».
Particularmente notable es que las pruebas fueron realizadas por el mismo equipo de GigaChat en un conjunto especializado de tareas desarrollado por la Alianza doméstica en el campo de la inteligencia artificial. En pruebas comparativas, los modelos estadounidenses Claude 3.7 Sonnet, Gemini 2.0 Flash, Gemini 1.5 Pro. Así como los chinos DeepSeek-V3 y DeepSeek-V3.0324 demostraron mayor rendimiento.
Jack Clark, cofundador y jefe de política en Anthropic, y anteriormente director de política en OpenAI, dio una evaluación inequívoca de la situación. En su opinión, si GigaChat refleja el estado de todo el ecosistema ruso de modelos de lenguaje, entonces el país no solo no podrá competir en la vanguardia, sino que también enfrentará dificultades incluso en el nicho de modelos abiertos pequeños.
Los datos de estas pruebas fueron publicados en un artículo científico en arxiv. Estos resultados indican que la lucha por el liderazgo en inteligencia artificial sigue siendo una batalla solo entre Estados Unidos y China.