Post Thumbnail

ИИ превзошел врачей в 4.6 раза в новом медицинском тесте HealthBench

Компания OpenAI представила систему оценки языковых моделей HealthBench, которая задаёт новые стандарты измерения эффективности систем искусственного интеллекта в медицинской сфере.

Инструмент разработан в сотрудничестве с 262 практикующими врачами из 60 стран мира. Такой широкий географический охват позволяет учитывать различные подходы к диагностике и лечению, характерные для разных медицинских школ и культурных контекстов.

В основе HealthBench лежит обширная база данных из 5000 клинических сценариев, смоделированных на основе реальных медицинских случаев. Особенность методологии заключается в её комплексном подходе. Вместо изолированных вопросов используются синтетические диалоги между ассистентом и пользователем, имитирующие реальную коммуникацию в клинической среде.

Многоязычность бенчмарка обеспечивает по-настоящему глобальную оценку искусственного интеллекта. Что критически важно для медицинских систем, которые должны функционировать в различных языковых средах без потери точности.

Оценка моделей проводится по 5 ключевым параметрам. Точность предоставляемой информации, полнота ответа, понимание контекста, качество коммуникации и следование инструкциям. Такой многофакторный анализ позволяет выявить сильные и слабые стороны каждой системы искусственного интеллекта.

Результаты тестирования демонстрируют существенный разрыв между возможностями искусственного интеллекта и человека. Наиболее эффективная модель o3 достигла показателя в 60%, за ней следуют Grok 3 с 54% и Gemini с 52%. Для сравнения, практикующие врачи без поддержки искусственного интеллекта демонстрируют результат около 13%.

Медицинские специалисты также испытывают затруднения даже при попытке улучшить ответы искусственного интеллекта. Если при работе с моделями предыдущего поколения врачи могли незначительно повысить качество ответов, то с новейшими системами ситуация изменилась. Человеческая правка ответов искусственного интеллекта последнего поколения фактически снижает их качество.

Думаю, количественный разрыв между показателями искусственного интеллекта и врачей слишком велик, чтобы его можно было объяснить методологическими особенностями тестирования. 60% против 13%. С учётом того, что бенчмарк разрабатывался с участием самих медиков.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Открытая модель RoboBrain 2.0 станет основой для гуманоидных роботов

Модель искусственного интеллекта RoboBrain 2.0 теперь может объединять восприятие окружения и управлять роботами в 1 компактной системе. Специалисты уже называют её основой для будущего поколения гуманоидных роботов.

Tinder запустил двойные свидания: ИИ подбирает команды из 4 человек

Приложение Tinder запустило функцию двойных свиданий, которая позволяет пользователям объединяться с друзьями для поиска пар. Теперь можно пригласить до 3 друзей и вместе просматривать профили других так называемых команд. У которых есть хотя бы 1 совпадение в индивидуальных предпочтениях.

Новый бенчмарк показал провал ИИ в олимпиадных задачах по программированию

Появился новый бенчмарк LiveCodeBench Pro для оценки способностей искусственного интеллекта в программировании. Ссылка в описании. Он включает самые сложные и свежие задачи с популярных соревнований. Международной олимпиады по информатике и чемпионата мира по программированию. Задачи размечали сами победители и призёры этих соревнований.

Данные до 2022 года стали "доядерной сталью" для обучения ИИ

Искусственный интеллект, призванный стать локомотивом технологического прогресса, начинает тормозить собственное развитие. По данным издания The Register, генеративные модели заполнили интернет таким количеством синтетического контента, что это создаёт настоящий технологический тупик.

Сэм Альтман раскрыл попытки Meta переманить сотрудников за $100 млн

Сэм Альтман публично раскрыл беспрецедентную охоту за талантами, которую ведёт Марк Цукерберг. Глава Meta предлагает сотрудникам OpenAI поистине астрономические суммы. 100 млн долларов только в качестве входного бонуса!