Новый бенчмарк показал провал ИИ в олимпиадных задачах по программированию

Post Thumbnail

Появился новый бенчмарк LiveCodeBench Pro для оценки способностей искусственного интеллекта в программировании. Ссылка в описании. Он включает самые сложные и свежие задачи с популярных соревнований. Международной олимпиады по информатике и чемпионата мира по программированию. Задачи размечали сами победители и призёры этих соревнований.

Результаты показывают интересную картину. Даже лучшая модель o4-mini-high достигает рейтинга всего 2100. Для сравнения, у программистов-гроссмейстеров этот показатель около 2700. Разрыв остаётся огромным.

Модели могут справиться только с простыми и некоторыми средними задачами. На по-настоящему сложных заданиях все языковые модели показывают абсолютный 0. Они неплохо решают задачи на комбинаторику и динамическое программирование. Но в теории игр и работе с крайними случаями их уровень как у среднего эксперта или даже ученика.

Любопытно различие в типах ошибок. Люди обычно допускают ошибки в реализации из-за невнимательности или проблем с синтаксисом. У моделей искусственного интеллекта проблемы чаще возникают на уровне самой идеи решения. Так что пока замены олимпиадным программистам не предвидится.

Почитать из последнего
Искусственный интеллект проверили на соответствие Библии
Представили бенчмарк Flourishing AI. Который оценивает, насколько ответы ИИ помогают человеку жить осмысленно и правильно с точки зрения христианского мировоззрения.
Nvidia держится на долгах и схемах, как перед кризисом 2008 года
The Verge опубликовал большое расследование о финансовой кухне Nvidia. Схема работает элегантно, как карточный домик. Nvidia инвестирует в так называемые неоклауды вроде CoreWeave, которые строят дата-центры для ИИ. Те берут кредиты под залог чипов Nvidia, чтобы купить ещё больше чипов Nvidia. $1 инвестиций превращается в $5 покупок. Красиво для отчётности, но держится на соплях.
OpenAI признала, что ИИ-браузеры никогда не будут безопасны
OpenAI запустила браузер ChatGPT Atlas в октябре — и сразу получила пощёчину от реальности. Исследователи безопасности моментально показали, что несколько слов в Google Docs могут изменить поведение браузера с ИИ. И теперь компания OpenAI признаёт, что prompt injection атаки, которые манипулируют агентами через скрытые инструкции на веб-страницах или в письмах, никуда не денутся.
OpenAI готовит IPO, но Альтмана это раздражает
Основатель OpenAI Сэм Альтман признался, что его абсолютно не прельщает идея быть главой публичной компании. И это на фоне подготовки OpenAI к 1 из крупнейших IPO в истории.
Нейросети загрязняют планету в тысячи раз меньше чем люди
Вот вам парадокс, который разорвёт мозг всем борцам за экологию и против ИИ одновременно. Пока все пишут про то, как нейросети жрут электричество и убивают планету, учёные взяли и посчитали реальные цифры. И знаете что? Оказалось, что искусственный интеллект оставляет углеродный след в сотни и тысячи раз меньше, чем живые писатели и художники.