Новый бенчмарк показал провал ИИ в олимпиадных задачах по программированию
Появился новый бенчмарк LiveCodeBench Pro для оценки способностей искусственного интеллекта в программировании. Ссылка в описании. Он включает самые сложные и свежие задачи с популярных соревнований. Международной олимпиады по информатике и чемпионата мира по программированию. Задачи размечали сами победители и призёры этих соревнований.
Результаты показывают интересную картину. Даже лучшая модель o4-mini-high достигает рейтинга всего 2100. Для сравнения, у программистов-гроссмейстеров этот показатель около 2700. Разрыв остаётся огромным.
Модели могут справиться только с простыми и некоторыми средними задачами. На по-настоящему сложных заданиях все языковые модели показывают абсолютный 0. Они неплохо решают задачи на комбинаторику и динамическое программирование. Но в теории игр и работе с крайними случаями их уровень как у среднего эксперта или даже ученика.
Любопытно различие в типах ошибок. Люди обычно допускают ошибки в реализации из-за невнимательности или проблем с синтаксисом. У моделей искусственного интеллекта проблемы чаще возникают на уровне самой идеи решения. Так что пока замены олимпиадным программистам не предвидится.
AIvengo >
Новости ИИ >
Новый бенчмарк показал провал ИИ в олимпиадных задачах по программированию
Почитать из последнего
Nvidia держится на долгах и схемах, как перед кризисом 2008 года
The Verge опубликовал большое расследование о финансовой кухне Nvidia. Схема работает элегантно, как карточный домик. Nvidia инвестирует в так называемые неоклауды вроде CoreWeave, которые строят дата-центры для ИИ. Те берут кредиты под залог чипов Nvidia, чтобы купить ещё больше чипов Nvidia. $1 инвестиций превращается в $5 покупок. Красиво для отчётности, но держится на соплях.
OpenAI признала, что ИИ-браузеры никогда не будут безопасны
OpenAI запустила браузер ChatGPT Atlas в октябре — и сразу получила пощёчину от реальности. Исследователи безопасности моментально показали, что несколько слов в Google Docs могут изменить поведение браузера с ИИ. И теперь компания OpenAI признаёт, что prompt injection атаки, которые манипулируют агентами через скрытые инструкции на веб-страницах или в письмах, никуда не денутся.
Нейросети загрязняют планету в тысячи раз меньше чем люди
Вот вам парадокс, который разорвёт мозг всем борцам за экологию и против ИИ одновременно. Пока все пишут про то, как нейросети жрут электричество и убивают планету, учёные взяли и посчитали реальные цифры. И знаете что? Оказалось, что искусственный интеллект оставляет углеродный след в сотни и тысячи раз меньше, чем живые писатели и художники.