GigaChat проиграл Claude и Gemini на русском языке в бенчмарке MERA

Post Thumbnail

Тестирование GigaChat раскрывает суровую правду о месте России в глобальной гонке искусственного интеллекта. Недавние испытания на бенчмарке MERA показали результаты, заставляющие серьёзно задуматься. Российская модель, созданная специально для работы с русским языком, неожиданно проиграла иностранным конкурентам в своей же «родной стихии».

Особенно примечательно, что тесты проводила сама команда GigaChat на специализированном наборе задач, разработанном отечественным Альянсом в сфере искусственного интеллекта. В сравнительных испытаниях американские модели Claude 3.7 Sonnet, Gemini 2.0 Flash, Gemini 1.5 Pro. А также китайские DeepSeek-V3 и DeepSeek-V3.0324 продемонстрировали более высокие показатели.

Джек Кларк, сооснователь и глава политики Anthropic, а ранее директор по политике OpenAI, дал однозначную оценку ситуации. По его мнению, если GigaChat отражает состояние всей российской экосистемы языковых моделей, то страна не только не сможет конкурировать на переднем крае, но и столкнётся с трудностями даже в нише небольших открытых моделей.

Данные этого тестирования были опубликованы в научной статье на arxiv. Эти результаты указывают на то, что борьба за лидерство в сфере искусственного интеллекта остаётся битвой только между США и Китаем.

Почитать из последнего
ИИ обучили на 500 000 мутаций, чтобы предсказывать генетические болезни
Исследователи медцентра Маунт-Синай в Нью-Йорке разработали ИИ, который определяет, какие заболевания могут вызвать мутации в генах.
Forbes подсчитал, кто заработал миллиарды на буме нейросетей
В 25-м году ИИ превратил больше предпринимателей в миллиардеров. А инвесторы вложили в сектор ИИ свыше 200 миллиардов долларов. Это почти 50% всего мирового венчурного финансирования. Forbes подвёл итоги: крупнейшие состояния сколотили не только создатели моделей, но и те, кто строит инфраструктуру вокруг них.
В Китае текстильная фабрика работает полностью на ИИ и без людей
В китайском городе Синьцзянь заработала текстильная фабрика, которая работает полностью с помощью ИИ. И вот вам картина будущего, в котором людям на производстве места нет. На огромном производстве ни одного рабочего на линии. Около 5000 ткацких станков крутятся круглосуточно под управлением ИИ и робототехники.
Психиатры зафиксировали десятки случаев, когда люди сходят с ума от ChatGPT
The Wall Street Journal пишет, что рост популярности чат-ботов на ИИ вызывает обеспокоенность психиатров, фиксирующих отдельные случаи расстройств на этой почве.
Similarweb показал, за счёт чего Gemini отжирает долю у OpenAI
Similarweb опубликовал свежую аналитику по доле разных продуктов на больших языковых моделях в веб-трафике. И вот вам картина перераспределения рынка. В начале года у ChatGPT было 87%, теперь — 68%. Доля упала почти на 20%.