Модели OpenAI доказали превосходство на задачах по математике

Post Thumbnail

Впервые было проведено масштабное тестирование их способностей на свежих олимпиадных задачах по математике и площадкой для «состязания» стала первая часть престижного американского конкурса American Invitational Mathematics Examination (AIME).

Тестирование включало 15 задач, каждая из которых предлагалась моделям ИИ по четыре раза для получения достоверных результатов. Система оценки была построена на цветовой схеме: зеленый цвет означал успешное решение во всех четырех попытках, желтый — от одной до трех успешных попыток, красный — полное отсутствие правильных решений.

Результаты оказались неожиданными. Модели OpenAI продемонстрировали значительное превосходство над конкурентами, включая нашумевшую китайскую модель DeepSeek R1. Особенно впечатляющие результаты показала модель o3-mini от OpenAI, достигнув точности 78.33%, хотя это и ниже заявленных ранее 87.3% на прошлогодних тестах.

Интересно, что модель o1 от OpenAI даже улучшила свои показатели по сравнению с прошлым годом, повысив точность с 74.4% до 76.67%. В то же время DeepSeek R1 продемонстрировала существенное снижение эффективности — с прошлогодних 79.8% до 65% на новых задачах. Еще более dramatic оказалось падение производительности у дистиллированной версии R1-Qwen-14b — с 69.7% до 50%.

Особого внимания заслуживает модель Claude 3.6 Sonnet, которая неожиданно показала крайне низкие результаты, не сумев решить практически ни одной задачи «из коробки».

Важно отметить, что позже было обнаружено присутствие как минимум трех задач из тестирования в открытом доступе в интернете, что могло повлиять на чистоту эксперимента. Тем не менее, полученные результаты дают интересную пищу для размышлений о способности различных моделей ИИ к обобщению и их устойчивости к переобучению.

Почитать из последнего
ChatGPT обогнал Netflix по выручке в Южной Корее
В Южной Корее выбрали, на что тратить деньги. Аналитики из Aicel Technologies подсчитали, что ежемесячный объём платежей за подписки на ИИ достиг $60 миллионов. Для сравнения, средняя месячная выручка Netflix в стране составляет около $50 миллионов. Получается, искусственный интеллект обогнал стриминг. Который казался незыблемым чемпионом по монетизации подписок.
Claude работает по своей конституции
Anthropic выложила новую конституцию Claude. И это реальная инструкция, по которой нейросеть принимает решения в сложных ситуациях. Раньше всё было просто: вот тебе список запретов, не делай это и то, работай по инструкции. Но компания поняла, что такой подход ломается при 1 же нестандартном кейсе, потому что модель не понимает «почему так». Теперь идея радикально другая. Claude должен не следовать правилам слепо, а мыслить через систему ценностей.
Гуманоид вышел на пробежку, но бывший инженер предупреждает об опасности
Компания Figure AI решила показать миру, как её робот-гуманоид бегает наравне с людьми. Руководитель Бретт Эдкок выложил видео, где железный парень уверенно движется рядом с сотрудниками, не отставая ни на шаг. Издание Digital Trends уже фантазирует: представьте, робот как персональный тренер задаёт вам темп для подготовки к 1 марафону! Звучит круто, правда?
Победитель AI Film Award получил миллион долларов
Google вручил 1 кинопремию для фильмов созданных ИИ. Миллион долларов получил Зубейр Эль-Джласси из Туниса за короткометражку Лили. Парень работает графическим дизайнером и режиссёром, использовал генератор Veo для видео и Gemini для подготовки сцен.
Anthropic рассказал, как Claude меняет науку
Anthropic опубликовала отчёт о том, как исследователи из топовых университетов внедряют Claude в биомедицину.