Post Thumbnail

Запущен сложнейший бенчмарк для ИИ

Представлен новый бенчмарк HUMANITY’S LAST EXAM, включающий 3000 сложных вопросов по десяткам предметных областей. Вопросы отбирались через многоэтапный процесс.

Из 13000 предложенных вопросов, на которых ведущие модели искусственного интеллекта показывали плохие результаты, эксперты выбрали 3000. Модифицировав их для обеспечения качества и однозначности.

Авторы лучших 50 вопросов получили по 5000 долларов. Следующие 500 вопросов принесли их создателям по 500 долларов. Лидеры бенчмарка — o 1 и R 1 показывают результат менее 10%. R 1 лидирует в текстовой части, но не может работать с изображениями, составляющими 10% теста.

HUMANITY’S LAST EXAM призван оценить предел возможностей искусственного интеллекта. Поскольку существующие тесты покорились моделям с точностью выше 90%. Первые результаты шокируют: даже GPT-4 o показал всего 3,3% точности, а лучший результат – 9,4%.

Бенчмарк также оценивает самокалибровку моделей. Их способность оценивать уверенность в собственных ответах. R 1 лидирует с заметным отрывом, но ошибка калибровки все равно превышает 80%.

Авторы ожидают, что к концу года новые модели могут достичь 50% точности на этом сложном новом тесте. Оказывается, чтобы победить искусственный интеллект в тесте, достаточно заплатить людям за придумывание действительно сложных вопросов.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

ИИ в промышленности: умные каски, инспекторы на 4-х ногах, двойники

Аналитический отчет McKinsey Global Institute говорит, что внедрение решений на базе искусственного интеллекта способно увеличить добавленную стоимость в глобальной промышленности на семь триллионов долларов уже к тридцатому году.  

ИИ в криминалистике: предсказания преступлений, роботы-патрульные

Согласно данным Международной ассоциации криминалистов, внедрение технологий искусственного интеллекта повышает эффективность раскрытия сложных преступлений на тридцать-сорок процентов. Давайте разберёмся, как это происходит.

ИИ в медицине: прорывы, о которых молчат врачи

Трансформация медицины с помощью искусственного интеллекта — это не просто технологический скачок. А фундаментальное изменение подхода к лечению и диагностике заболеваний. Исследования показывают, что глобальный рынок искусственного интеллекта в здравоохранении вырастет до ста сорока пяти миллиардов долларов к тридцатому году. Для понимания роста - в двадцать четвертом году этот рынок составлял тридцать миллиардов долларов. То есть это рост почти в пять раз за шесть лет! Давайте разберемся, что стоит за этими цифрами.

YouTube предлагает бесплатную музыку от ИИ

YouTube запускает революционную функцию, позволяющую креаторам создавать уникальную инструментальную музыку с помощью искусственного интеллекта для своих видео. Об этом компания сообщила в обновлении на своем канале Creator Insider.

США готовы оштрафовать TSMC на $1 млрд за сотрудничество с Huawei

Крупнейшему в мире производителю микросхем Taiwan Semiconductor Manufacturing Company (TSMC) грозит штраф в размере $1 млрд или более по итогам расследования о нарушении экспортного контроля США. Причиной стало обнаружение чипов компании в AI-процессорах Huawei, сообщает Reuters.