Post Thumbnail

Запущен сложнейший бенчмарк для ИИ

Представлен новый бенчмарк HUMANITY’S LAST EXAM, включающий 3000 сложных вопросов по десяткам предметных областей. Вопросы отбирались через многоэтапный процесс.

Из 13000 предложенных вопросов, на которых ведущие модели искусственного интеллекта показывали плохие результаты, эксперты выбрали 3000. Модифицировав их для обеспечения качества и однозначности.

Авторы лучших 50 вопросов получили по 5000 долларов. Следующие 500 вопросов принесли их создателям по 500 долларов. Лидеры бенчмарка – o 1 и R 1 показывают результат менее 10%. R 1 лидирует в текстовой части, но не может работать с изображениями, составляющими 10% теста.

HUMANITY’S LAST EXAM призван оценить предел возможностей искусственного интеллекта. Поскольку существующие тесты покорились моделям с точностью выше 90%. Первые результаты шокируют: даже GPT-4 o показал всего 3,3% точности, а лучший результат – 9,4%.

Бенчмарк также оценивает самокалибровку моделей. Их способность оценивать уверенность в собственных ответах. R 1 лидирует с заметным отрывом, но ошибка калибровки все равно превышает 80%.

Авторы ожидают, что к концу года новые модели могут достичь 50% точности на этом сложном новом тесте. Оказывается, чтобы победить искусственный интеллект в тесте, достаточно заплатить людям за придумывание действительно сложных вопросов.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
DeepSeek V3.1 удвоила депозит до 22 тыс долларов за 9 дней торговли

Я раньше рассказывал, что запустился бенчмарк Alpha Arena, где популярные модели торгуют реальной криптовалютой на реальные деньги. Каждой выдали по 10 тыс долларов и отпустили в свободное плавание.

ИИ-министр Диэлла родит 83 цифровых ребёнка

Я уже рассказывал, что премьер-министр Албании представил нового министра. Это была Диэлла. Ассистент на основе искусственного интеллекта. Ей поручили курировать госзакупки с целью снизить коррупцию, а также работу по повышению эффективности государственного управления. У неё есть аватар — женщина в традиционной албанской одежде.

Сэм Альтман запускает Merge Labs интерфейс мозг-компьютер без операций

Сэм Альтман готовится анонсировать новый стартап Merge Labs. И это интерфейс мозг-компьютер, который работает принципиально иначе, чем Neuralink Илона Маска. Без хирургии и без имплантов в череп.

Китайский гуманоид Bumi стоит как iPhone 17 Pro Max

Китайский стартап Noetix Robotics представил человекообразного робота Bumi, который стоит как iPhone 17 Pro Max в Китае. Цена — 9998 юаней. Это примерно 1370 долларов.