Post Thumbnail

Модели OpenAI доказали превосходство на задачах по математике

Впервые было проведено масштабное тестирование их способностей на свежих олимпиадных задачах по математике и площадкой для «состязания» стала первая часть престижного американского конкурса American Invitational Mathematics Examination (AIME).

Тестирование включало 15 задач, каждая из которых предлагалась моделям ИИ по четыре раза для получения достоверных результатов. Система оценки была построена на цветовой схеме: зеленый цвет означал успешное решение во всех четырех попытках, желтый — от одной до трех успешных попыток, красный — полное отсутствие правильных решений.

Результаты оказались неожиданными. Модели OpenAI продемонстрировали значительное превосходство над конкурентами, включая нашумевшую китайскую модель DeepSeek R1. Особенно впечатляющие результаты показала модель o3-mini от OpenAI, достигнув точности 78.33%, хотя это и ниже заявленных ранее 87.3% на прошлогодних тестах.

Интересно, что модель o1 от OpenAI даже улучшила свои показатели по сравнению с прошлым годом, повысив точность с 74.4% до 76.67%. В то же время DeepSeek R1 продемонстрировала существенное снижение эффективности — с прошлогодних 79.8% до 65% на новых задачах. Еще более dramatic оказалось падение производительности у дистиллированной версии R1-Qwen-14b — с 69.7% до 50%.

Особого внимания заслуживает модель Claude 3.6 Sonnet, которая неожиданно показала крайне низкие результаты, не сумев решить практически ни одной задачи «из коробки».

Важно отметить, что позже было обнаружено присутствие как минимум трех задач из тестирования в открытом доступе в интернете, что могло повлиять на чистоту эксперимента. Тем не менее, полученные результаты дают интересную пищу для размышлений о способности различных моделей ИИ к обобщению и их устойчивости к переобучению.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Робот NEO от 1X работает автономно без интернета на бортовом GPU

Гуманоидный робот NEO от компании 1X Technologies продемонстрировал крутые возможности, которые наконец-то приближают нас к давней мечте человечества о полноценных домашних помощниках.

Волна блокировок в Instagram: ИИ ошибочно банит тысячи аккаунтов

Пользователи Instagram столкнулись с настоящей волной загадочных блокировок, которая продолжается уже несколько недель. Масштаб проблемы поражает. Тысячи аккаунтов оказались заблокированы без видимых нарушений правил платформы.

Полиция разогнала 2 тыс. человек с ИИ-вечеринки стартапа Cluely

Полиция разогнала то, что основатель и директор стартапа искусственного интеллекта Cluely Рой Ли назвал "самой легендарной вечеринкой, которая так и не состоялась".

Первая Олимпиада роботов пройдет в древней Олимпии

Греция готовится принять 1 в мире Международную Олимпиаду антропоморфных роботов. Событие, которое без преувеличения можно назвать важным моментом в эволюции робототехники.

OpenAI нашла "переключатели личностей" в нейронных сетях ИИ

Исследователи OpenAI заглянули в цифровое подсознание нейронных сетей и обнаружили там нечто поразительное. А именно скрытые паттерны, работающие как переключатели различных так называемых "личностей" модели.