Модели OpenAI доказали превосходство на задачах по математике

Впервые было проведено масштабное тестирование их способностей на свежих олимпиадных задачах по математике и площадкой для «состязания» стала первая часть престижного американского конкурса American Invitational Mathematics Examination (AIME).

Тестирование включало 15 задач, каждая из которых предлагалась моделям ИИ по четыре раза для получения достоверных результатов. Система оценки была построена на цветовой схеме: зеленый цвет означал успешное решение во всех четырех попытках, желтый — от одной до трех успешных попыток, красный — полное отсутствие правильных решений.

Результаты оказались неожиданными. Модели OpenAI продемонстрировали значительное превосходство над конкурентами, включая нашумевшую китайскую модель DeepSeek R1. Особенно впечатляющие результаты показала модель o3-mini от OpenAI, достигнув точности 78.33%, хотя это и ниже заявленных ранее 87.3% на прошлогодних тестах.

Интересно, что модель o1 от OpenAI даже улучшила свои показатели по сравнению с прошлым годом, повысив точность с 74.4% до 76.67%. В то же время DeepSeek R1 продемонстрировала существенное снижение эффективности — с прошлогодних 79.8% до 65% на новых задачах. Еще более dramatic оказалось падение производительности у дистиллированной версии R1-Qwen-14b — с 69.7% до 50%.

Особого внимания заслуживает модель Claude 3.6 Sonnet, которая неожиданно показала крайне низкие результаты, не сумев решить практически ни одной задачи «из коробки».

Важно отметить, что позже было обнаружено присутствие как минимум трех задач из тестирования в открытом доступе в интернете, что могло повлиять на чистоту эксперимента. Тем не менее, полученные результаты дают интересную пищу для размышлений о способности различных моделей ИИ к обобщению и их устойчивости к переобучению.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Qualcomm приветствует инвестиции TSMC в размере $100 млрд

Инвестиции Taiwan Semiconductor Manufacturing Co. (TSMC) в размере $100 млрд в расширение производства на территории США — "отличная новость", заявил генеральный директор Qualcomm Кристиано Амон в интервью CNBC во вторник, 4 марта 2025 года. По его словам, это способствует диверсификации мест производства полупроводников.

DuckDuckGo усиливает интеграцию генеративного ИИ

Частный поисковый сервис DuckDuckGo продолжает укреплять свои позиции в сфере генеративного искусственного интеллекта. Согласно блог-посту, опубликованному в четверг, 6 марта 2025 года, компания объявила о завершении бета-тестирования своего чат-интерфейса, который теперь официально называется Duck.ai, отказавшись от более громоздкого названия DuckDuckGo AI Chat.

Цифровой скандал в Los Angeles Times

Миллиардер и владелец Los Angeles Times Патрик Сун-Шионг, представивший новый AI-инструмент для генерации противоположных перспектив к материалам раздела мнений, не знал, что система создала про-ККК аргументы менее чем через 24 часа после запуска — и даже спустя часы после того, как скандальные AI-комментарии были удалены с сайта издания. Инцидент создал огромное препятствие для Times, которая стремится вернуть старых подписчиков и привлечь новых с помощью инновационных технологических решений.

Google Shopping запускает AI-инструмент

Google объявил о запуске нового AI-инструмента для вкладки Shopping, который поможет пользователям находить одежду по их словесному описанию. Анонс, сделанный в среду, 5 марта 2025 года, также включает расширение возможностей инструментов дополненной реальности (AR) для косметики и виртуальной примерки.

"Не могу помочь с ответами о выборах и политических фигурах": Gemini

Технологический гигант Google по-прежнему ограничивает возможности своего AI-ассистента Gemini в области политического дискурса, несмотря на то что основные конкуренты компании, включая OpenAI, Anthropic и Meta, уже адаптировали свои чат-боты для обсуждения политически чувствительных тем в последние месяцы.