Post Thumbnail

GigaChat проиграл Claude и Gemini на русском языке в бенчмарке MERA

Тестирование GigaChat раскрывает суровую правду о месте России в глобальной гонке искусственного интеллекта. Недавние испытания на бенчмарке MERA показали результаты, заставляющие серьёзно задуматься. Российская модель, созданная специально для работы с русским языком, неожиданно проиграла иностранным конкурентам в своей же «родной стихии».

Особенно примечательно, что тесты проводила сама команда GigaChat на специализированном наборе задач, разработанном отечественным Альянсом в сфере искусственного интеллекта. В сравнительных испытаниях американские модели Claude 3.7 Sonnet, Gemini 2.0 Flash, Gemini 1.5 Pro. А также китайские DeepSeek-V3 и DeepSeek-V3.0324 продемонстрировали более высокие показатели.

Джек Кларк, сооснователь и глава политики Anthropic, а ранее директор по политике OpenAI, дал однозначную оценку ситуации. По его мнению, если GigaChat отражает состояние всей российской экосистемы языковых моделей, то страна не только не сможет конкурировать на переднем крае, но и столкнётся с трудностями даже в нише небольших открытых моделей.

Данные этого тестирования были опубликованы в научной статье на arxiv. Эти результаты указывают на то, что борьба за лидерство в сфере искусственного интеллекта остаётся битвой только между США и Китаем.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
UBTech отправит роботов Walker S2 служить на границу Китая за $37 млн

Китайская компания UBTech выиграла контракт на $37 миллионов. И отправит человекоподобных роботов Walker S2 служить на границу Китая с Вьетнамом. South China Morning Post сообщает, что роботы будут взаимодействовать с туристами и персоналом, выполнять логистические операции, досматривать грузы и патрулировать местность. И что характерно — они умеют самостоятельно менять свою батарею.

Anthropic случайно раскрыла внутренний документ о "душе" Claude

Anthropic случайно раскрыла пользователю "душу" искусственного интеллекта. И это не метафора. Это вполне конкретный внутренний документ.

Дженсен Хуанг приказал сотрудникам Nvidia использовать ИИ везде

Дженсен Хуанг объявил внутри Nvidia тотальную мобилизацию под знаменем искусственного интеллекта. И это уже не рекомендация. Это требование.

ИИ-чатботы генерируют контент, усугубляющий расстройства питания

Совместное исследование Стэнфордского университета и Центра демократии и технологий показало тревожную картину. Чат-боты с искусственным интеллектом представляют серьёзный риск для людей с расстройствами пищевого поведения. Учёные предупреждают, что нейросети раздают вредные советы о диетах. Предлагают способы скрыть расстройство и генерируют "вдохновляющий контент для похудения", который усугубляет проблему.

OpenAGI выпустил модель Lux, которая обгоняет Google и OpenAI

Стартап OpenAGI выпустил модель Lux для управления компьютером и заявляет, что это прорыв. По бенчмаркам модель на целое поколение обгоняет аналоги от Google, OpenAI и Anthropic. Кроме того, она работает быстрее. Примерно 1 секунда на шаг вместо 3 секунд у конкурентов. И в 10 раз дешевле по стоимости обработки 1 токена.