ИИ превзошел врачей в 4.6 раза в новом медицинском тесте HealthBench

Post Thumbnail

Компания OpenAI представила систему оценки языковых моделей HealthBench, которая задаёт новые стандарты измерения эффективности систем искусственного интеллекта в медицинской сфере.

Инструмент разработан в сотрудничестве с 262 практикующими врачами из 60 стран мира. Такой широкий географический охват позволяет учитывать различные подходы к диагностике и лечению, характерные для разных медицинских школ и культурных контекстов.

В основе HealthBench лежит обширная база данных из 5000 клинических сценариев, смоделированных на основе реальных медицинских случаев. Особенность методологии заключается в её комплексном подходе. Вместо изолированных вопросов используются синтетические диалоги между ассистентом и пользователем, имитирующие реальную коммуникацию в клинической среде.

Многоязычность бенчмарка обеспечивает по-настоящему глобальную оценку искусственного интеллекта. Что критически важно для медицинских систем, которые должны функционировать в различных языковых средах без потери точности.

Оценка моделей проводится по 5 ключевым параметрам. Точность предоставляемой информации, полнота ответа, понимание контекста, качество коммуникации и следование инструкциям. Такой многофакторный анализ позволяет выявить сильные и слабые стороны каждой системы искусственного интеллекта.

Результаты тестирования демонстрируют существенный разрыв между возможностями искусственного интеллекта и человека. Наиболее эффективная модель o3 достигла показателя в 60%, за ней следуют Grok 3 с 54% и Gemini с 52%. Для сравнения, практикующие врачи без поддержки искусственного интеллекта демонстрируют результат около 13%.

Медицинские специалисты также испытывают затруднения даже при попытке улучшить ответы искусственного интеллекта. Если при работе с моделями предыдущего поколения врачи могли незначительно повысить качество ответов, то с новейшими системами ситуация изменилась. Человеческая правка ответов искусственного интеллекта последнего поколения фактически снижает их качество.

Думаю, количественный разрыв между показателями искусственного интеллекта и врачей слишком велик, чтобы его можно было объяснить методологическими особенностями тестирования. 60% против 13%. С учётом того, что бенчмарк разрабатывался с участием самих медиков.

Почитать из последнего
Более 30 000 врачей и юристов обучают нейросети делать их работу
Представьте картину: журналист с 20-летним стажем, которого выкинули в прошлом году, сидит и правит статьи, которые создал ИИ. 20-30 часов в неделю. За деньги. Чтобы машина научилась писать ещё лучше. Абсурд? Добро пожаловать в новую реальность белых воротничков.
Из-за ИИ теоретическая физика исчезнет через 10 лет
Физик-теоретик и популяризатор науки Сабина Хоссенфельдер, выдала интересный прогноз. Она считает, что через 3 года научные исследования в привычном виде перестанут существовать. А через 10 лет теоретическая физика как область человеческой деятельности может практически закончиться. Для решения задач будет достаточно просто купить вычислительное время нейросети. Звучит как антиутопия? Только вот процесс уже пошёл.
Nvidia и Siemens превратят завод в гигантского робота с ИИ
Глава Nvidia Дженсен Хуанг на выставке CES выдал очень интересную фразу, цитирую: "Эти производственные предприятия, по сути, станут гигантскими роботами". Так Nvidia и Siemens анонсировали создание Industrial AI Operating System. Платформы, которая внедрит ИИ во всю цепочку промышленного производства. От проектирования до логистики. Завод будущего не просто автоматизирован — он думает сам.
Крёстный отец SaaS уволил продажников и заменил их ИИ за полгода
Джейсон Лемкин, которого называют крёстным отцом SaaS и основателем сообщества SaaStr, публично заявил что больше не будет нанимать людей в отдел продаж своей компании. Вместо живых менеджеров теперь работают агенты на основе ИИ. По его словам, переход занял меньше года.
Создатель Signal запустил ИИ-ассистента с полной анонимностью
Создатель мессенджера Signal Мокси Марлинспайк, решил сделать с чат-ботами то же что сделал с мессенджерами. Добавить слой анонимности который не пробьёшь. Его новый проект Confer с открытым исходным кодом гарантирует что данные пользователей будут недоступны вообще никому. Ни оператору платформы, ни хакерам, ни правоохранителям, ни любой другой стороне кроме самих владельцев.