ИИ превзошел врачей в 4.6 раза в новом медицинском тесте HealthBench

Post Thumbnail

Компания OpenAI представила систему оценки языковых моделей HealthBench, которая задаёт новые стандарты измерения эффективности систем искусственного интеллекта в медицинской сфере.

Инструмент разработан в сотрудничестве с 262 практикующими врачами из 60 стран мира. Такой широкий географический охват позволяет учитывать различные подходы к диагностике и лечению, характерные для разных медицинских школ и культурных контекстов.

В основе HealthBench лежит обширная база данных из 5000 клинических сценариев, смоделированных на основе реальных медицинских случаев. Особенность методологии заключается в её комплексном подходе. Вместо изолированных вопросов используются синтетические диалоги между ассистентом и пользователем, имитирующие реальную коммуникацию в клинической среде.

Многоязычность бенчмарка обеспечивает по-настоящему глобальную оценку искусственного интеллекта. Что критически важно для медицинских систем, которые должны функционировать в различных языковых средах без потери точности.

Оценка моделей проводится по 5 ключевым параметрам. Точность предоставляемой информации, полнота ответа, понимание контекста, качество коммуникации и следование инструкциям. Такой многофакторный анализ позволяет выявить сильные и слабые стороны каждой системы искусственного интеллекта.

Результаты тестирования демонстрируют существенный разрыв между возможностями искусственного интеллекта и человека. Наиболее эффективная модель o3 достигла показателя в 60%, за ней следуют Grok 3 с 54% и Gemini с 52%. Для сравнения, практикующие врачи без поддержки искусственного интеллекта демонстрируют результат около 13%.

Медицинские специалисты также испытывают затруднения даже при попытке улучшить ответы искусственного интеллекта. Если при работе с моделями предыдущего поколения врачи могли незначительно повысить качество ответов, то с новейшими системами ситуация изменилась. Человеческая правка ответов искусственного интеллекта последнего поколения фактически снижает их качество.

Думаю, количественный разрыв между показателями искусственного интеллекта и врачей слишком велик, чтобы его можно было объяснить методологическими особенностями тестирования. 60% против 13%. С учётом того, что бенчмарк разрабатывался с участием самих медиков.

Почитать из последнего
Запущена "фабрика по кастомизации роботьих душ"
Знаете, какой минус в современных роботах? Они все одинаковые. 1 и тот же механический голос, 1 и те же заученные фразы, никакой индивидуальности. Компания AgiBot решила, что с этим пора кончать. И запустила платформу LinkSoul, которую сами разработчики называют "фабрикой по кастомизации роботьих душ".
Amazon строит город для ИИ размером с тысячу футбольных полей
Amazon строит настоящий город для ИИ. В Индиане на площади 5000 квадратных километров возводится масштабный комплекс инфраструктуры стоимостью $11 миллиардов. Проект реализуется в интересах стартапа Anthropic, который разрабатывает Claude.
ИИ научился видеть стресс на рентгене
Знаете, что самое паршивое в хроническом стресе? Его не видно. Ты можешь годами жечь себя на работе, улыбаться всем и делать вид, что всё под контролем. А внутри организм тихо разваливается.
Google дал 3 года на появление AGI
Сооснователь и главный AGI-сайентист Google DeepMind Шейн Легг выдал заявление, от которого у многих поплыли глаза. По его оценке, вероятность появления AGI к 28 году составляет 50%. Правда, он сразу оговаривается: речь не о "божественном сверхразуме", а о "минимальном AGI. Агенте, способном выполнять когнитивные задачи, типичные для человека.
Проверили, как нейросети заменяют людей - и результат печальный
Scale AI и Center for AI Safety опубликовали результаты бенчмарка Remote Labor Index, который оценивает способность нейросетей выполнять реальную работу фрилансеров. И знаете что? Даже лучшие модели справились с заданиями на человеческом уровне лишь в 2,5% случаев.