Запущен сложнейший бенчмарк для ИИ

Представлен новый бенчмарк HUMANITY’S LAST EXAM, включающий 3000 сложных вопросов по десяткам предметных областей. Вопросы отбирались через многоэтапный процесс.

Из 13000 предложенных вопросов, на которых ведущие модели искусственного интеллекта показывали плохие результаты, эксперты выбрали 3000. Модифицировав их для обеспечения качества и однозначности.

Авторы лучших 50 вопросов получили по 5000 долларов. Следующие 500 вопросов принесли их создателям по 500 долларов. Лидеры бенчмарка — o 1 и R 1 показывают результат менее 10%. R 1 лидирует в текстовой части, но не может работать с изображениями, составляющими 10% теста.

HUMANITY’S LAST EXAM призван оценить предел возможностей искусственного интеллекта. Поскольку существующие тесты покорились моделям с точностью выше 90%. Первые результаты шокируют: даже GPT-4 o показал всего 3,3% точности, а лучший результат – 9,4%.

Бенчмарк также оценивает самокалибровку моделей. Их способность оценивать уверенность в собственных ответах. R 1 лидирует с заметным отрывом, но ошибка калибровки все равно превышает 80%.

Авторы ожидают, что к концу года новые модели могут достичь 50% точности на этом сложном новом тесте. Оказывается, чтобы победить искусственный интеллект в тесте, достаточно заплатить людям за придумывание действительно сложных вопросов.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Qualcomm приветствует инвестиции TSMC в размере $100 млрд

Инвестиции Taiwan Semiconductor Manufacturing Co. (TSMC) в размере $100 млрд в расширение производства на территории США — "отличная новость", заявил генеральный директор Qualcomm Кристиано Амон в интервью CNBC во вторник, 4 марта 2025 года. По его словам, это способствует диверсификации мест производства полупроводников.

DuckDuckGo усиливает интеграцию генеративного ИИ

Частный поисковый сервис DuckDuckGo продолжает укреплять свои позиции в сфере генеративного искусственного интеллекта. Согласно блог-посту, опубликованному в четверг, 6 марта 2025 года, компания объявила о завершении бета-тестирования своего чат-интерфейса, который теперь официально называется Duck.ai, отказавшись от более громоздкого названия DuckDuckGo AI Chat.

Цифровой скандал в Los Angeles Times

Миллиардер и владелец Los Angeles Times Патрик Сун-Шионг, представивший новый AI-инструмент для генерации противоположных перспектив к материалам раздела мнений, не знал, что система создала про-ККК аргументы менее чем через 24 часа после запуска — и даже спустя часы после того, как скандальные AI-комментарии были удалены с сайта издания. Инцидент создал огромное препятствие для Times, которая стремится вернуть старых подписчиков и привлечь новых с помощью инновационных технологических решений.

Google Shopping запускает AI-инструмент

Google объявил о запуске нового AI-инструмента для вкладки Shopping, который поможет пользователям находить одежду по их словесному описанию. Анонс, сделанный в среду, 5 марта 2025 года, также включает расширение возможностей инструментов дополненной реальности (AR) для косметики и виртуальной примерки.

"Не могу помочь с ответами о выборах и политических фигурах": Gemini

Технологический гигант Google по-прежнему ограничивает возможности своего AI-ассистента Gemini в области политического дискурса, несмотря на то что основные конкуренты компании, включая OpenAI, Anthropic и Meta, уже адаптировали свои чат-боты для обсуждения политически чувствительных тем в последние месяцы.