Post Thumbnail

Новый бенчмарк показал провал ИИ в олимпиадных задачах по программированию

Появился новый бенчмарк LiveCodeBench Pro для оценки способностей искусственного интеллекта в программировании. Ссылка в описании. Он включает самые сложные и свежие задачи с популярных соревнований. Международной олимпиады по информатике и чемпионата мира по программированию. Задачи размечали сами победители и призёры этих соревнований.

Результаты показывают интересную картину. Даже лучшая модель o4-mini-high достигает рейтинга всего 2100. Для сравнения, у программистов-гроссмейстеров этот показатель около 2700. Разрыв остаётся огромным.

Модели могут справиться только с простыми и некоторыми средними задачами. На по-настоящему сложных заданиях все языковые модели показывают абсолютный 0. Они неплохо решают задачи на комбинаторику и динамическое программирование. Но в теории игр и работе с крайними случаями их уровень как у среднего эксперта или даже ученика.

Любопытно различие в типах ошибок. Люди обычно допускают ошибки в реализации из-за невнимательности или проблем с синтаксисом. У моделей искусственного интеллекта проблемы чаще возникают на уровне самой идеи решения. Так что пока замены олимпиадным программистам не предвидится.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Открытая модель RoboBrain 2.0 станет основой для гуманоидных роботов

Модель искусственного интеллекта RoboBrain 2.0 теперь может объединять восприятие окружения и управлять роботами в 1 компактной системе. Специалисты уже называют её основой для будущего поколения гуманоидных роботов.

Tinder запустил двойные свидания: ИИ подбирает команды из 4 человек

Приложение Tinder запустило функцию двойных свиданий, которая позволяет пользователям объединяться с друзьями для поиска пар. Теперь можно пригласить до 3 друзей и вместе просматривать профили других так называемых команд. У которых есть хотя бы 1 совпадение в индивидуальных предпочтениях.

Новый бенчмарк показал провал ИИ в олимпиадных задачах по программированию

Появился новый бенчмарк LiveCodeBench Pro для оценки способностей искусственного интеллекта в программировании. Ссылка в описании. Он включает самые сложные и свежие задачи с популярных соревнований. Международной олимпиады по информатике и чемпионата мира по программированию. Задачи размечали сами победители и призёры этих соревнований.

Данные до 2022 года стали "доядерной сталью" для обучения ИИ

Искусственный интеллект, призванный стать локомотивом технологического прогресса, начинает тормозить собственное развитие. По данным издания The Register, генеративные модели заполнили интернет таким количеством синтетического контента, что это создаёт настоящий технологический тупик.

Сэм Альтман раскрыл попытки Meta переманить сотрудников за $100 млн

Сэм Альтман публично раскрыл беспрецедентную охоту за талантами, которую ведёт Марк Цукерберг. Глава Meta предлагает сотрудникам OpenAI поистине астрономические суммы. 100 млн долларов только в качестве входного бонуса!