Post Thumbnail

Запущен сложнейший бенчмарк для ИИ

Представлен новый бенчмарк HUMANITY’S LAST EXAM, включающий 3000 сложных вопросов по десяткам предметных областей. Вопросы отбирались через многоэтапный процесс.

Из 13000 предложенных вопросов, на которых ведущие модели искусственного интеллекта показывали плохие результаты, эксперты выбрали 3000. Модифицировав их для обеспечения качества и однозначности.

Авторы лучших 50 вопросов получили по 5000 долларов. Следующие 500 вопросов принесли их создателям по 500 долларов. Лидеры бенчмарка — o 1 и R 1 показывают результат менее 10%. R 1 лидирует в текстовой части, но не может работать с изображениями, составляющими 10% теста.

HUMANITY’S LAST EXAM призван оценить предел возможностей искусственного интеллекта. Поскольку существующие тесты покорились моделям с точностью выше 90%. Первые результаты шокируют: даже GPT-4 o показал всего 3,3% точности, а лучший результат – 9,4%.

Бенчмарк также оценивает самокалибровку моделей. Их способность оценивать уверенность в собственных ответах. R 1 лидирует с заметным отрывом, но ошибка калибровки все равно превышает 80%.

Авторы ожидают, что к концу года новые модели могут достичь 50% точности на этом сложном новом тесте. Оказывается, чтобы победить искусственный интеллект в тесте, достаточно заплатить людям за придумывание действительно сложных вопросов.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Dongfeng внедряет роботов Walker S ростом 1.7м с 41 сервоприводом

Dongfeng Motor объединяет силы с Ubtech Robotics, чтобы интегрировать инновационных роботов Walker S в производственные линии. Эти технологические чудеса ростом 1 метр и 70 сантиметров готовы трансформировать традиционные процессы сборки автомобилей. Генеральный менеджер Dongfeng Motor подчеркивает, что внедрение искусственного интеллекта в этих роботах значительно повысит качество проверки и сборки компонентов.

Аспирант MIT сократил реставрацию картин с 230 часов до 3.5 часов

Аспирант MIT Алекс Качкин разработал крутой метод реставрации картин с помощью искусственного интеллекта. Сокращающий время работы с многих месяцев до нескольких часов. В качестве демонстрации он восстановил работу неизвестного нидерландского мастера 15 века, серьезно пострадавшую от времени.

ИИ-протез из Канады анализирует объекты и решает, как их взять

Искусственный интеллект дарит протезам самостоятельность! Ученые из Мемориального университета Ньюфаундленда создали революционный протез руки, который буквально "думает" сам. В отличие от традиционных моделей, требующих считывания сигналов мышц через датчики, новое устройство полностью автономно.

DeepSeek упаковал движок для LLM в 1200 строк Python кода

Команда DeepSeek представила nano-vLLM. Это легковесный и компактный движок для запуска крупных языковых моделей. Который может изменить представление об эффективности кода. Удивительно, но весь функционал уместился всего в 1200 строк Python-кода! Это настоящий технологический минимализм в мире искусственного интеллекта. Традиционные движки вроде этого, при всей их мощности, часто страдают от перегруженной кодовой базы. Что делает их модификацию настоящим испытанием для разработчиков. Nano-vLLM решает эту проблему, предлагая простой, но мощный инструмент без лишней сложности. Код открыт.

Провал роботакси Tesla: 11 нарушений ПДД за первые дни из 20 машин

Мечта о роботакси сталкивается с суровой реальностью! Тесла запустила публичные испытания беспилотных такси в Остине, но результаты оказались далеки от обещанного технологического чуда. За первые дни тестирования зафиксировано минимум 11 серьезных нарушений правил дорожного движения. И это при том, что на дороги вышло всего 20 автомобилей, отобранных для ограниченного круга блогеров. Филип Купман, профессор Университета Карнеги-Меллон и эксперт по автономным технологиям, не скрывает удивления: "Это ужасно быстро для появления такого количества видео с нестабильным вождением".