Модели OpenAI доказали превосходство на задачах по математике

Post Thumbnail

Впервые было проведено масштабное тестирование их способностей на свежих олимпиадных задачах по математике и площадкой для «состязания» стала первая часть престижного американского конкурса American Invitational Mathematics Examination (AIME).

Тестирование включало 15 задач, каждая из которых предлагалась моделям ИИ по четыре раза для получения достоверных результатов. Система оценки была построена на цветовой схеме: зеленый цвет означал успешное решение во всех четырех попытках, желтый — от одной до трех успешных попыток, красный — полное отсутствие правильных решений.

Результаты оказались неожиданными. Модели OpenAI продемонстрировали значительное превосходство над конкурентами, включая нашумевшую китайскую модель DeepSeek R1. Особенно впечатляющие результаты показала модель o3-mini от OpenAI, достигнув точности 78.33%, хотя это и ниже заявленных ранее 87.3% на прошлогодних тестах.

Интересно, что модель o1 от OpenAI даже улучшила свои показатели по сравнению с прошлым годом, повысив точность с 74.4% до 76.67%. В то же время DeepSeek R1 продемонстрировала существенное снижение эффективности — с прошлогодних 79.8% до 65% на новых задачах. Еще более dramatic оказалось падение производительности у дистиллированной версии R1-Qwen-14b — с 69.7% до 50%.

Особого внимания заслуживает модель Claude 3.6 Sonnet, которая неожиданно показала крайне низкие результаты, не сумев решить практически ни одной задачи «из коробки».

Важно отметить, что позже было обнаружено присутствие как минимум трех задач из тестирования в открытом доступе в интернете, что могло повлиять на чистоту эксперимента. Тем не менее, полученные результаты дают интересную пищу для размышлений о способности различных моделей ИИ к обобщению и их устойчивости к переобучению.

Почитать из последнего
Samsung хотят обойти Apple по ИИ-функциям и вернуть лидерство
В прошлом году Samsung поставила на рынок 400 миллионов мобильных устройств с ассистентом Google Gemini. Этого, видимо, показалось мало. В этом году южнокорейский гигант намерен удвоить количество до 800 миллионов штук. Тэ Мун Ро, один из двух гендиректоров Samsung Electronics, объяснил агентству Reuters это просто. Компания стремится распространить функции ИИ на все устройства и все услуги как можно скорее.
Alibaba научила алгоритм видеть рак там, где врачи пропускают
Каменщик 57 лет в Китае пришёл в больницу проверить диабет. Обычный осмотр, ничего особенного. Через 3 дня ему звонит заведующий отделением поджелудочной железы, мол приезжайте срочно. ИИ, который прогнал его КТ-снимок, нашёл опухоль. Оказалось – рак, но на ранней стадии. Вырезали и мужчина выжил. Без этой технологии его бы нашли слишком поздно, когда 5-летняя выживаемость около 10%.
OpenAI к 2028 году увеличит мощности дата-центров в 90 раз
Epoch AI сделал публично доступным трекер крупнейших дата-центров. А человек из твиттера с ником Peter Gostev визуализировал суммарные мощности по месяцам в разрезе компаний, и цифры просто убийственные.
Робот с лазером собрал 20 млн долларов, чтобы выжигать сорняки ярче солнца
Carbon Robotics привлекла 20 миллионов долларов на разработку третьей линейки продуктов. Компания делает роботов, которые выжигают сорняки лазером и работают в 14 странах. А за всем этим стоит большая растительная модель, которую разрабатывали с первых дней.
Шведский подросток бросил школу и теперь работает научным сотрудником в OpenAI
Габриэлю Петерссону 23 года, он бросил школу в глухом шведском городке и никогда не учился в университете. Но прямо сейчас он работает научным сотрудником в OpenAI в команде Sora. И Габриэль рассказал, как у него так получилось.