Модели OpenAI доказали превосходство на задачах по математике

Post Thumbnail

Впервые было проведено масштабное тестирование их способностей на свежих олимпиадных задачах по математике и площадкой для «состязания» стала первая часть престижного американского конкурса American Invitational Mathematics Examination (AIME).

Тестирование включало 15 задач, каждая из которых предлагалась моделям ИИ по четыре раза для получения достоверных результатов. Система оценки была построена на цветовой схеме: зеленый цвет означал успешное решение во всех четырех попытках, желтый — от одной до трех успешных попыток, красный — полное отсутствие правильных решений.

Результаты оказались неожиданными. Модели OpenAI продемонстрировали значительное превосходство над конкурентами, включая нашумевшую китайскую модель DeepSeek R1. Особенно впечатляющие результаты показала модель o3-mini от OpenAI, достигнув точности 78.33%, хотя это и ниже заявленных ранее 87.3% на прошлогодних тестах.

Интересно, что модель o1 от OpenAI даже улучшила свои показатели по сравнению с прошлым годом, повысив точность с 74.4% до 76.67%. В то же время DeepSeek R1 продемонстрировала существенное снижение эффективности — с прошлогодних 79.8% до 65% на новых задачах. Еще более dramatic оказалось падение производительности у дистиллированной версии R1-Qwen-14b — с 69.7% до 50%.

Особого внимания заслуживает модель Claude 3.6 Sonnet, которая неожиданно показала крайне низкие результаты, не сумев решить практически ни одной задачи «из коробки».

Важно отметить, что позже было обнаружено присутствие как минимум трех задач из тестирования в открытом доступе в интернете, что могло повлиять на чистоту эксперимента. Тем не менее, полученные результаты дают интересную пищу для размышлений о способности различных моделей ИИ к обобщению и их устойчивости к переобучению.

Почитать из последнего
Из-за ИИ клавиатуры исчезнут из офисов
Лондонская школа экономики совместно с Jabra выдала любопытный прогноз. К 28-му году голосовой ИИ станет стандартом в офисах. А поколение Альфа — рождённые после 2010 года — возможно, никогда не узнает, каково это писать email руками. Но пока мне не верится, что клавиатуры действительно исчезнут.
ChatGPT обогнал TikTok и Disney
ChatGPT заработал 3 миллиарда долларов на мобильных подписках. Цифра впечатляет, но ещё интереснее скорость, с которой её достигли.
Собаки-поводыри скоро станут робо-псами с ИИ
Инженеры из США и Южной Кореи превратили робо-пса Unitree Go2 в собаку-поводыря. Модель ИИ GuideNav использует одну обычную камеру вместо дорогих датчиков LiDAR. И это работает.
Американцы заваливают китайский ИИ деньгами
Американские инвесторы завалили китайских разработчиков ИИ деньгами. Несмотря на геополитическое противостояние. Получается, прибыль побеждает политику.
OpenAI и Anthropic внедряют распознавание детей
Компании OpenAI и Anthropic внедряют технологии распознавания несовершеннолетних пользователей чат-ботов. OpenAI обновила правила взаимодействия ChatGPT с пользователями от 13 до 17 лет. Anthropic работает над системой идентификации и блокировки пользователей младше 18.