Post Thumbnail

Google Gemini 2.5 Pro обошел OpenAI o3 и лидирует на LMArena

Google обновил Gemini 2.5 Pro с сильным приростом по бенчмаркам. Теперь модель обходит текущую версию o3 от OpenAI. Как и 2.5 Flash, это гибридная модель, у которой можно устанавливать бюджет на мыслительные процессы или полностью их отключать. Модель уже доступна и по первым впечатлениям работает лучше ранних версий. Даже слушается, когда просишь не спамить код комментариями.

На арене LMArena новая версия поднялась на 24 балла Elo по сравнению с прошлой и теперь лидирует во всех категориях, опережая o3 и Claude Opus 4. На бенчмарках модель заметно улучшилась и стала эффективнее в задачах кода, логики и точных наук.

Показатели впечатляют. 82.2% на задачах по программированию, 86.4% на вопросах по естественным наукам и 21.6% на тесте Humanity’s Last Exam, который проверяет мышление и знания.

Разработчики также учли отзывы о предыдущей версии и улучшили стиль и структуру. Теперь модель может быть более творческой. Также в неё добавили бюджеты на мыслительные процессы для большего контроля над стоимостью. К сожалению, генерацию изображений для Gemini Pro так и не добавили.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Samsung ищет замену Google Gemini для Galaxy S26

Samsung Electronics, 1 из ведущих производителей мобильных устройств, активно ищет альтернативы Google Gemini для своей будущей линейки Galaxy S26. Компания ведёт переговоры с OpenAI и Perplexity, стремясь расширить экосистему искусственного интеллекта в своих устройствах.

Как языковые модели передают знания через случайные числа

Вы когда-нибудь задумывались, могут ли числа хранить знания? Учёные обнаружили удивительное явление. Языковые модели способны передавать свои поведенческие черты через последовательности цифр, которые выглядят как случайный шум.

Alibaba представила умные очки Quark AI с чипом Snapdragon AR1

Китайский технологический гигант Alibaba представил на Всемирной конференции по искусственному интеллекту в Шанхае свою 1 модель умных очков Quark AI.

Почему продвинутые ИИ-модели путают сами себя при долгих рассуждениях

Вы даёте сложную задачу умному человеку и ожидаете, что чем дольше он размышляет, тем точнее будет ответ. Логично, правда? Именно так мы привыкли думать и о работе искусственного интеллекта. Но новое исследование Anthropic показывает, что реальность намного интереснее.

Z.AI представила GLM-4.5 с 355 млрд параметров и открытым кодом

Встречайте нового технологического тяжеловеса! Компания Z.AI представила открытую языковую модель GLM-4.5, которая готова бросить вызов западным гигантам не только возможностями, но и доступностью.