Post Thumbnail

Новый бенчмарк показал провал ИИ в олимпиадных задачах по программированию

Появился новый бенчмарк LiveCodeBench Pro для оценки способностей искусственного интеллекта в программировании. Ссылка в описании. Он включает самые сложные и свежие задачи с популярных соревнований. Международной олимпиады по информатике и чемпионата мира по программированию. Задачи размечали сами победители и призёры этих соревнований.

Результаты показывают интересную картину. Даже лучшая модель o4-mini-high достигает рейтинга всего 2100. Для сравнения, у программистов-гроссмейстеров этот показатель около 2700. Разрыв остаётся огромным.

Модели могут справиться только с простыми и некоторыми средними задачами. На по-настоящему сложных заданиях все языковые модели показывают абсолютный 0. Они неплохо решают задачи на комбинаторику и динамическое программирование. Но в теории игр и работе с крайними случаями их уровень как у среднего эксперта или даже ученика.

Любопытно различие в типах ошибок. Люди обычно допускают ошибки в реализации из-за невнимательности или проблем с синтаксисом. У моделей искусственного интеллекта проблемы чаще возникают на уровне самой идеи решения. Так что пока замены олимпиадным программистам не предвидится.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Samsung ищет замену Google Gemini для Galaxy S26

Samsung Electronics, 1 из ведущих производителей мобильных устройств, активно ищет альтернативы Google Gemini для своей будущей линейки Galaxy S26. Компания ведёт переговоры с OpenAI и Perplexity, стремясь расширить экосистему искусственного интеллекта в своих устройствах.

Как языковые модели передают знания через случайные числа

Вы когда-нибудь задумывались, могут ли числа хранить знания? Учёные обнаружили удивительное явление. Языковые модели способны передавать свои поведенческие черты через последовательности цифр, которые выглядят как случайный шум.

Alibaba представила умные очки Quark AI с чипом Snapdragon AR1

Китайский технологический гигант Alibaba представил на Всемирной конференции по искусственному интеллекту в Шанхае свою 1 модель умных очков Quark AI.

Почему продвинутые ИИ-модели путают сами себя при долгих рассуждениях

Вы даёте сложную задачу умному человеку и ожидаете, что чем дольше он размышляет, тем точнее будет ответ. Логично, правда? Именно так мы привыкли думать и о работе искусственного интеллекта. Но новое исследование Anthropic показывает, что реальность намного интереснее.

Z.AI представила GLM-4.5 с 355 млрд параметров и открытым кодом

Встречайте нового технологического тяжеловеса! Компания Z.AI представила открытую языковую модель GLM-4.5, которая готова бросить вызов западным гигантам не только возможностями, но и доступностью.