Post Thumbnail

Модели OpenAI доказали превосходство на задачах по математике

Впервые было проведено масштабное тестирование их способностей на свежих олимпиадных задачах по математике и площадкой для «состязания» стала первая часть престижного американского конкурса American Invitational Mathematics Examination (AIME).

Тестирование включало 15 задач, каждая из которых предлагалась моделям ИИ по четыре раза для получения достоверных результатов. Система оценки была построена на цветовой схеме: зеленый цвет означал успешное решение во всех четырех попытках, желтый — от одной до трех успешных попыток, красный — полное отсутствие правильных решений.

Результаты оказались неожиданными. Модели OpenAI продемонстрировали значительное превосходство над конкурентами, включая нашумевшую китайскую модель DeepSeek R1. Особенно впечатляющие результаты показала модель o3-mini от OpenAI, достигнув точности 78.33%, хотя это и ниже заявленных ранее 87.3% на прошлогодних тестах.

Интересно, что модель o1 от OpenAI даже улучшила свои показатели по сравнению с прошлым годом, повысив точность с 74.4% до 76.67%. В то же время DeepSeek R1 продемонстрировала существенное снижение эффективности — с прошлогодних 79.8% до 65% на новых задачах. Еще более dramatic оказалось падение производительности у дистиллированной версии R1-Qwen-14b — с 69.7% до 50%.

Особого внимания заслуживает модель Claude 3.6 Sonnet, которая неожиданно показала крайне низкие результаты, не сумев решить практически ни одной задачи «из коробки».

Важно отметить, что позже было обнаружено присутствие как минимум трех задач из тестирования в открытом доступе в интернете, что могло повлиять на чистоту эксперимента. Тем не менее, полученные результаты дают интересную пищу для размышлений о способности различных моделей ИИ к обобщению и их устойчивости к переобучению.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

ИИ в промышленности: умные каски, инспекторы на 4-х ногах, двойники

Аналитический отчет McKinsey Global Institute говорит, что внедрение решений на базе искусственного интеллекта способно увеличить добавленную стоимость в глобальной промышленности на семь триллионов долларов уже к тридцатому году.  

ИИ в криминалистике: предсказания преступлений, роботы-патрульные

Согласно данным Международной ассоциации криминалистов, внедрение технологий искусственного интеллекта повышает эффективность раскрытия сложных преступлений на тридцать-сорок процентов. Давайте разберёмся, как это происходит.

ИИ в медицине: прорывы, о которых молчат врачи

Трансформация медицины с помощью искусственного интеллекта — это не просто технологический скачок. А фундаментальное изменение подхода к лечению и диагностике заболеваний. Исследования показывают, что глобальный рынок искусственного интеллекта в здравоохранении вырастет до ста сорока пяти миллиардов долларов к тридцатому году. Для понимания роста - в двадцать четвертом году этот рынок составлял тридцать миллиардов долларов. То есть это рост почти в пять раз за шесть лет! Давайте разберемся, что стоит за этими цифрами.

YouTube предлагает бесплатную музыку от ИИ

YouTube запускает революционную функцию, позволяющую креаторам создавать уникальную инструментальную музыку с помощью искусственного интеллекта для своих видео. Об этом компания сообщила в обновлении на своем канале Creator Insider.

США готовы оштрафовать TSMC на $1 млрд за сотрудничество с Huawei

Крупнейшему в мире производителю микросхем Taiwan Semiconductor Manufacturing Company (TSMC) грозит штраф в размере $1 млрд или более по итогам расследования о нарушении экспортного контроля США. Причиной стало обнаружение чипов компании в AI-процессорах Huawei, сообщает Reuters.