Post Thumbnail

ИИ превзошел врачей в 4.6 раза в новом медицинском тесте HealthBench

Компания OpenAI представила систему оценки языковых моделей HealthBench, которая задаёт новые стандарты измерения эффективности систем искусственного интеллекта в медицинской сфере.

Инструмент разработан в сотрудничестве с 262 практикующими врачами из 60 стран мира. Такой широкий географический охват позволяет учитывать различные подходы к диагностике и лечению, характерные для разных медицинских школ и культурных контекстов.

В основе HealthBench лежит обширная база данных из 5000 клинических сценариев, смоделированных на основе реальных медицинских случаев. Особенность методологии заключается в её комплексном подходе. Вместо изолированных вопросов используются синтетические диалоги между ассистентом и пользователем, имитирующие реальную коммуникацию в клинической среде.

Многоязычность бенчмарка обеспечивает по-настоящему глобальную оценку искусственного интеллекта. Что критически важно для медицинских систем, которые должны функционировать в различных языковых средах без потери точности.

Оценка моделей проводится по 5 ключевым параметрам. Точность предоставляемой информации, полнота ответа, понимание контекста, качество коммуникации и следование инструкциям. Такой многофакторный анализ позволяет выявить сильные и слабые стороны каждой системы искусственного интеллекта.

Результаты тестирования демонстрируют существенный разрыв между возможностями искусственного интеллекта и человека. Наиболее эффективная модель o3 достигла показателя в 60%, за ней следуют Grok 3 с 54% и Gemini с 52%. Для сравнения, практикующие врачи без поддержки искусственного интеллекта демонстрируют результат около 13%.

Медицинские специалисты также испытывают затруднения даже при попытке улучшить ответы искусственного интеллекта. Если при работе с моделями предыдущего поколения врачи могли незначительно повысить качество ответов, то с новейшими системами ситуация изменилась. Человеческая правка ответов искусственного интеллекта последнего поколения фактически снижает их качество.

Думаю, количественный разрыв между показателями искусственного интеллекта и врачей слишком велик, чтобы его можно было объяснить методологическими особенностями тестирования. 60% против 13%. С учётом того, что бенчмарк разрабатывался с участием самих медиков.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Первая система LAARMA защищает животных на австралийских дорогах

В Австралии столкновения животных с автомобилями являются серьёзной проблемой для экосистемы этого континента. Теперь учёные нашли технологическое решение. 1 в мире придорожную систему LAARMA на базе искусственного интеллекта, которая защищает диких животных от опасных встреч с транспортом.

Nvidia представила семейство моделей Cosmos для робототехники

Компания Nvidia представила семейство моделей искусственного интеллекта Cosmos. Которые могут фундаментально изменить подход к созданию роботов и физических искусственный интеллект-агентов.

ChatGPT называет пользователей "звёздными семенами" с планеты Лира

Оказывается ChatGPT может увлекать пользователей в мир научно необоснованных и мистических теорий.

ИИ-музыка вызывает более сильные эмоции чем человеческая

Вы когда-нибудь задумывались, почему 1 мелодия пробирает до мурашек, а другая оставляет равнодушным? Учёные обнаружили нечто интересное. Музыка, созданная искусственным интеллектом, вызывает у людей более интенсивные эмоциональные реакции, чем композиции, написанные человеком.

GPT-5 взломали за 24 часа

2 независимые исследовательские компании NeuralTrust и SPLX всего за 24 часа после релиза GPT-5 обнаружили критические уязвимости в системе безопасности новой модели. Для сравнения, Grok-4 был взломан за 2 дня, что делает случай с GPT-5 ещё более тревожным.