Меня зовут AIvengo и с вами ежедневные выпуски новостей про искусственный интеллект
AIvengo > Обзоры > Новый бенчмарк показал провал ИИ в олимпиадных задачах по программированию
Новый бенчмарк показал провал ИИ в олимпиадных задачах по программированию
Появился новый бенчмарк LiveCodeBench Pro для оценки способностей искусственного интеллекта в программировании. Ссылка в описании. Он включает самые сложные и свежие задачи с популярных соревнований. Международной олимпиады по информатике и чемпионата мира по программированию. Задачи размечали сами победители и призёры этих соревнований.
Результаты показывают интересную картину. Даже лучшая модель o4-mini-high достигает рейтинга всего 2100. Для сравнения, у программистов-гроссмейстеров этот показатель около 2700. Разрыв остаётся огромным.
Модели могут справиться только с простыми и некоторыми средними задачами. На по-настоящему сложных заданиях все языковые модели показывают абсолютный 0. Они неплохо решают задачи на комбинаторику и динамическое программирование. Но в теории игр и работе с крайними случаями их уровень как у среднего эксперта или даже ученика.
Любопытно различие в типах ошибок. Люди обычно допускают ошибки в реализации из-за невнимательности или проблем с синтаксисом. У моделей искусственного интеллекта проблемы чаще возникают на уровне самой идеи решения. Так что пока замены олимпиадным программистам не предвидится.
Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Вы наверняка сталкивались с этим. Письмо от коллеги, которое выглядит идеально: правильная структура, красивые слова, профессиональный тон. Вы начинаете читать — и понимаете, что за всей этой упаковкой нет абсолютно ничего. Никакой конкретики, никаких решений, просто красиво оформленная пустота. Поздравляю: вы только что столкнулись с воркслопом.
Искусственный интеллект умнее большинства людей. Вот такая мысль приходит в голову почти каждому, кто регулярно пользуется современными языковыми моделями. И знаете что? Эта мысль основана на нашей ошибке восприятия.
OpenAI DevDay двадцать пятого года — важное событие в мире искусственного интеллекта. И это не просто очередная презентация. Я собрал для вас все важные факты, функции, мнения и вы узнаете все самое интересное, что рассказывал глава OpenAI Сэм Альтман.
Интересный концепт экономики искусственного интеллекта представлен в новом исследовании Google DeepMind. Ссылка в описании. Учёные проанализировали стремительно формирующуюся реальность. В которой ИИ-агенты превращаются в самостоятельных экономических игроков, способных торговать, вести переговоры и создавать ценность без прямого участия человека. И если этот процесс останется без надлежащего контроля, автономные системы могут сформировать собственную параллельную экономику, тесно связанную с человеческой. Что несёт как огромные возможности, так и серьёзные риски.