GigaChat проиграл Claude и Gemini на русском языке в бенчмарке MERA
Тестирование GigaChat раскрывает суровую правду о месте России в глобальной гонке искусственного интеллекта. Недавние испытания на бенчмарке MERA показали результаты, заставляющие серьёзно задуматься. Российская модель, созданная специально для работы с русским языком, неожиданно проиграла иностранным конкурентам в своей же «родной стихии».
Особенно примечательно, что тесты проводила сама команда GigaChat на специализированном наборе задач, разработанном отечественным Альянсом в сфере искусственного интеллекта. В сравнительных испытаниях американские модели Claude 3.7 Sonnet, Gemini 2.0 Flash, Gemini 1.5 Pro. А также китайские DeepSeek-V3 и DeepSeek-V3.0324 продемонстрировали более высокие показатели.
Джек Кларк, сооснователь и глава политики Anthropic, а ранее директор по политике OpenAI, дал однозначную оценку ситуации. По его мнению, если GigaChat отражает состояние всей российской экосистемы языковых моделей, то страна не только не сможет конкурировать на переднем крае, но и столкнётся с трудностями даже в нише небольших открытых моделей.
Данные этого тестирования были опубликованы в научной статье на arxiv. Эти результаты указывают на то, что борьба за лидерство в сфере искусственного интеллекта остаётся битвой только между США и Китаем.
Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
ИИ-мошенник 2.5 года выдавал себя за Киану Ривза и украл $160 тыс.Дианн Рингстафф стала жертвой изощрённого мошенничества, когда играла в мобильную игру и получила сообщение, за которым последовал видеозвонок. Технологии искусственного интеллекта были настолько продвинутыми, что женщина была абсолютно уверена — ей звонил настоящий Киану Ривз.
70-килограммовый гуманоид летает на турбинахИтальянские инженеры совершили невероятное. Металлический летающий гуманоид iRonCub3 с человеческими пропорциями весом в 70 кг летает! 4 мощные турбины подняли гуманоида на высоту 50 см, демонстрируя технологию, которая раньше существовала только в научной фантастике.
MIT и Microsoft разоблачили ложь GPT-3.5Команда ученых из MIT и Microsoft разработала методику, позволяющую заглянуть за кулисы мышления языковых моделей. И понять, когда они нам врут. Исследование раскрывает тревожные случаи системного несоответствия между реальными причинами решений моделей и их вербальными объяснениями.
OpenAI переманивает клиентов Microsoft скидкамиКомпания OpenAI начала предоставлять значительные скидки на корпоративные подписки ChatGPT — от 10 до 20%! Но скидки доступны при дополнительных инвестициях в другие продукты OpenAI, включая Deep Research, Codex и повышенные расходы на API. И этот беспрецедентный шаг вызывает серьезное беспокойство у Microsoft.
GigaChat проиграл Claude и Gemini на русском языке в бенчмарке MERAТестирование GigaChat раскрывает суровую правду о месте России в глобальной гонке искусственного интеллекта. Недавние испытания на бенчмарке MERA показали результаты, заставляющие серьёзно задуматься. Российская модель, созданная специально для работы с русским языком, неожиданно проиграла иностранным конкурентам в своей же "родной стихии".