Запущен сложнейший бенчмарк для ИИ

Post Thumbnail

Представлен новый бенчмарк HUMANITY’S LAST EXAM, включающий 3000 сложных вопросов по десяткам предметных областей. Вопросы отбирались через многоэтапный процесс.

Из 13000 предложенных вопросов, на которых ведущие модели искусственного интеллекта показывали плохие результаты, эксперты выбрали 3000. Модифицировав их для обеспечения качества и однозначности.

Авторы лучших 50 вопросов получили по 5000 долларов. Следующие 500 вопросов принесли их создателям по 500 долларов. Лидеры бенчмарка — o 1 и R 1 показывают результат менее 10%. R 1 лидирует в текстовой части, но не может работать с изображениями, составляющими 10% теста.

HUMANITY’S LAST EXAM призван оценить предел возможностей искусственного интеллекта. Поскольку существующие тесты покорились моделям с точностью выше 90%. Первые результаты шокируют: даже GPT-4 o показал всего 3,3% точности, а лучший результат – 9,4%.

Бенчмарк также оценивает самокалибровку моделей. Их способность оценивать уверенность в собственных ответах. R 1 лидирует с заметным отрывом, но ошибка калибровки все равно превышает 80%.

Авторы ожидают, что к концу года новые модели могут достичь 50% точности на этом сложном новом тесте. Оказывается, чтобы победить искусственный интеллект в тесте, достаточно заплатить людям за придумывание действительно сложных вопросов.

Почитать из последнего
Запущена "фабрика по кастомизации роботьих душ"
Знаете, какой минус в современных роботах? Они все одинаковые. 1 и тот же механический голос, 1 и те же заученные фразы, никакой индивидуальности. Компания AgiBot решила, что с этим пора кончать. И запустила платформу LinkSoul, которую сами разработчики называют "фабрикой по кастомизации роботьих душ".
Amazon строит город для ИИ размером с тысячу футбольных полей
Amazon строит настоящий город для ИИ. В Индиане на площади 5000 квадратных километров возводится масштабный комплекс инфраструктуры стоимостью $11 миллиардов. Проект реализуется в интересах стартапа Anthropic, который разрабатывает Claude.
ИИ научился видеть стресс на рентгене
Знаете, что самое паршивое в хроническом стресе? Его не видно. Ты можешь годами жечь себя на работе, улыбаться всем и делать вид, что всё под контролем. А внутри организм тихо разваливается.
Google дал 3 года на появление AGI
Сооснователь и главный AGI-сайентист Google DeepMind Шейн Легг выдал заявление, от которого у многих поплыли глаза. По его оценке, вероятность появления AGI к 28 году составляет 50%. Правда, он сразу оговаривается: речь не о "божественном сверхразуме", а о "минимальном AGI. Агенте, способном выполнять когнитивные задачи, типичные для человека.
Проверили, как нейросети заменяют людей - и результат печальный
Scale AI и Center for AI Safety опубликовали результаты бенчмарка Remote Labor Index, который оценивает способность нейросетей выполнять реальную работу фрилансеров. И знаете что? Даже лучшие модели справились с заданиями на человеческом уровне лишь в 2,5% случаев.