Post Thumbnail

GigaChat perdió contra Claude y Gemini en idioma ruso en el benchmark MERA

Las pruebas de GigaChat revelan la dura verdad sobre el lugar de Rusia en la carrera global de inteligencia artificial. Pruebas recientes en el benchmark MERA mostraron resultados que obligan a una reflexión seria. El modelo ruso, creado específicamente para trabajar con el idioma ruso, perdió inesperadamente contra competidores extranjeros en su propio «elemento nativo».

Particularmente notable es que las pruebas fueron realizadas por el mismo equipo de GigaChat en un conjunto especializado de tareas desarrollado por la Alianza doméstica en el campo de la inteligencia artificial. En pruebas comparativas, los modelos estadounidenses Claude 3.7 Sonnet, Gemini 2.0 Flash, Gemini 1.5 Pro. Así como los chinos DeepSeek-V3 y DeepSeek-V3.0324 demostraron mayor rendimiento.

Jack Clark, cofundador y jefe de política en Anthropic, y anteriormente director de política en OpenAI, dio una evaluación inequívoca de la situación. En su opinión, si GigaChat refleja el estado de todo el ecosistema ruso de modelos de lenguaje, entonces el país no solo no podrá competir en la vanguardia, sino que también enfrentará dificultades incluso en el nicho de modelos abiertos pequeños.

Los datos de estas pruebas fueron publicados en un artículo científico en arxiv. Estos resultados indican que la lucha por el liderazgo en inteligencia artificial sigue siendo una batalla solo entre Estados Unidos y China.

Autor: AIvengo

Latest News

Estafador de IA se hizo pasar por Keanu Reeves durante 2.5 años y robó $160,000

Dianne Ringstaff se convirtió en víctima de una estafa sofisticada cuando estaba jugando un juego móvil y recibió un mensaje seguido de una videollamada. Las tecnologías de inteligencia artificial eran tan avanzadas que la mujer estaba absolutamente segura — el verdadero Keanu Reeves la estaba llamando.

Humanoide de 70 kilogramos vuela con turbinas

Los ingenieros italianos lograron lo increíble. ¡El humanoide volador metálico iRonCub3 con proporciones humanas que pesa 70 kg vuela! 4 turbinas poderosas levantaron al humanoide a una altura de 50 cm, demostrando tecnología que anteriormente existía solo en la ciencia ficción.

MIT y Microsoft expusieron las mentiras de GPT-3.5

Un equipo de científicos del MIT y Microsoft desarrolló una metodología que permite mirar detrás de escenas del pensamiento de modelos de lenguaje. Y entender cuándo nos mienten. La investigación revela casos preocupantes de discrepancia sistemática entre las razones reales de las decisiones de los modelos y sus explicaciones verbales.

OpenAI atrae clientes de Microsoft con descuentos

La empresa OpenAI comenzó a proporcionar descuentos significativos en suscripciones corporativas de ChatGPT — ¡del 10 al 20%! Pero los descuentos están disponibles con inversiones adicionales en otros productos de OpenAI, incluyendo Deep Research, Codex y gastos aumentados de API. Y este paso sin precedentes causa seria preocupación en Microsoft.

GigaChat perdió contra Claude y Gemini en idioma ruso en el benchmark MERA

Las pruebas de GigaChat revelan la dura verdad sobre el lugar de Rusia en la carrera global de inteligencia artificial. Pruebas recientes en el benchmark MERA mostraron resultados que obligan a una reflexión seria. El modelo ruso, creado específicamente para trabajar con el idioma ruso, perdió inesperadamente contra competidores extranjeros en su propio "elemento nativo".