Post Thumbnail

Модели OpenAI доказали превосходство на задачах по математике

Впервые было проведено масштабное тестирование их способностей на свежих олимпиадных задачах по математике и площадкой для “состязания” стала первая часть престижного американского конкурса American Invitational Mathematics Examination (AIME).

Тестирование включало 15 задач, каждая из которых предлагалась моделям ИИ по четыре раза для получения достоверных результатов. Система оценки была построена на цветовой схеме: зеленый цвет означал успешное решение во всех четырех попытках, желтый – от одной до трех успешных попыток, красный – полное отсутствие правильных решений.

Результаты оказались неожиданными. Модели OpenAI продемонстрировали значительное превосходство над конкурентами, включая нашумевшую китайскую модель DeepSeek R1. Особенно впечатляющие результаты показала модель o3-mini от OpenAI, достигнув точности 78.33%, хотя это и ниже заявленных ранее 87.3% на прошлогодних тестах.

Интересно, что модель o1 от OpenAI даже улучшила свои показатели по сравнению с прошлым годом, повысив точность с 74.4% до 76.67%. В то же время DeepSeek R1 продемонстрировала существенное снижение эффективности – с прошлогодних 79.8% до 65% на новых задачах. Еще более dramatic оказалось падение производительности у дистиллированной версии R1-Qwen-14b – с 69.7% до 50%.

Особого внимания заслуживает модель Claude 3.6 Sonnet, которая неожиданно показала крайне низкие результаты, не сумев решить практически ни одной задачи “из коробки”.

Важно отметить, что позже было обнаружено присутствие как минимум трех задач из тестирования в открытом доступе в интернете, что могло повлиять на чистоту эксперимента. Тем не менее, полученные результаты дают интересную пищу для размышлений о способности различных моделей ИИ к обобщению и их устойчивости к переобучению.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Nvidia представила семейство моделей Cosmos для робототехники

Компания Nvidia представила семейство моделей искусственного интеллекта Cosmos. Которые могут фундаментально изменить подход к созданию роботов и физических искусственный интеллект-агентов.

ChatGPT называет пользователей "звёздными семенами" с планеты Лира

Оказывается ChatGPT может увлекать пользователей в мир научно необоснованных и мистических теорий.

ИИ-музыка вызывает более сильные эмоции чем человеческая

Вы когда-нибудь задумывались, почему 1 мелодия пробирает до мурашек, а другая оставляет равнодушным? Учёные обнаружили нечто интересное. Музыка, созданная искусственным интеллектом, вызывает у людей более интенсивные эмоциональные реакции, чем композиции, написанные человеком.

GPT-5 взломали за 24 часа

2 независимые исследовательские компании NeuralTrust и SPLX всего за 24 часа после релиза GPT-5 обнаружили критические уязвимости в системе безопасности новой модели. Для сравнения, Grok-4 был взломан за 2 дня, что делает случай с GPT-5 ещё более тревожным.

Cloudflare заблокировала Perplexity за 6 млн скрытых запросов в день

Cloudflare нанесла сокрушительный удар по Perplexity AI, заблокировав доступ поисковому стартапу к тысячам сайтов. Причина? Беспрецедентное по масштабу скрытое сканирование веб-ресурсов вопреки явным запретам владельцев!