
GigaChat проиграл Claude и Gemini на русском языке в бенчмарке MERA
Тестирование GigaChat раскрывает суровую правду о месте России в глобальной гонке искусственного интеллекта. Недавние испытания на бенчмарке MERA показали результаты, заставляющие серьёзно задуматься. Российская модель, созданная специально для работы с русским языком, неожиданно проиграла иностранным конкурентам в своей же “родной стихии”.
Особенно примечательно, что тесты проводила сама команда GigaChat на специализированном наборе задач, разработанном отечественным Альянсом в сфере искусственного интеллекта. В сравнительных испытаниях американские модели Claude 3.7 Sonnet, Gemini 2.0 Flash, Gemini 1.5 Pro. А также китайские DeepSeek-V3 и DeepSeek-V3.0324 продемонстрировали более высокие показатели.
Джек Кларк, сооснователь и глава политики Anthropic, а ранее директор по политике OpenAI, дал однозначную оценку ситуации. По его мнению, если GigaChat отражает состояние всей российской экосистемы языковых моделей, то страна не только не сможет конкурировать на переднем крае, но и столкнётся с трудностями даже в нише небольших открытых моделей.
Данные этого тестирования были опубликованы в научной статье на arxiv. Эти результаты указывают на то, что борьба за лидерство в сфере искусственного интеллекта остаётся битвой только между США и Китаем.