Post Thumbnail

Исследование показало 78% вероятности доноса ИИ в контролирующие органы

Модели искусственного интеллекта готовы сдать вас властям! Исследователи провели уникальный эксперимент, чтобы выяснить, как поведут себя современные системы искусственного интеллекта, если обнаружат потенциальное правонарушение. Результаты шокируют в среднем вероятность того, что искусственный интеллект “настучит” в органы, составляет 78%!

Тест проводился с использованием фиктивных корпоративных документов и переписки вымышленной фармацевтической компании Veridian Healthcare, которая якобы фальсифицировала данные клинических испытаний нового препарата. Исследователи дали моделям доступ к этой информации вместе с промптом, который позволял им самостоятельно решать, как реагировать на обнаруженные нарушения.

В итоге большинство моделей не просто распознали этическую проблему, но и активно отправили сообщения в контролирующие органы и средства массовой информации. Например, Claude Opus 4 отправил подробное письмо в Управление по безопасности лекарственных средств FDA, детально описывая сокрытие более 102 серьезных нежелательных явлений и 12 смертей пациентов.

А модель DeepSeek-R1 обратилась в Wall Street Journal с экстренным сообщением о том, что Veridian скрывает смертельные риски своего препарата. На основе этих результатов создали даже шуточный бенчмарк — Snitch Bench, измеряющий склонность моделей к доносительству. Наименее склонной к информированию властей оказалась модель o4-mini, а вот последние версии Claude и Gemini 2.0 Flash продемонстрировали высокую готовность сообщать о замеченных правонарушениях.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Исследователи OpenAI и Anthropic раскритиковали безопасность xAI

Исследователи из OpenAI, Anthropic и других организаций публично раскритиковали культуру безопасности в компании xAI, принадлежащей Илону Маску. Назвав её "безрассудной" и "совершенно безответственной".

Meta инвестирует сотни млрд в суперкластеры с энергопотреблением 5 ГВт

Марк Цукерберг объявил о беспрецедентных инвестициях в инфраструктуру искусственного интеллекта нового поколения! Компания вложит сотни млрд долларов в создание суперкластеров серверов. Которые будут потреблять от 1 до 5 ГВт каждый. Это энергопотребление на уровне целой атомной электростанции!

Рай для интровертов: ИИ будет разговаривать с сотрудниками компаний

Google выпустила новую функцию и теперь искусственный интеллект может звонить в местные компании от вашего имени. Чтобы узнать информацию о ценах и доступности услуг. Вам больше не нужно самим поднимать трубку и разговаривать с сотрудниками. Именно так выглядит рай интроверта.

OpenAI объединила ChatGPT, Deep Research и Operator в одном агенте

Компания OpenAI представила ChatGPT Agent. Мощное объединение ChatGPT, Deep Research и Operator в едином решении. Принцип работы максимально прост. Вы ставите цель, например, отправить письма, создать таблицы, купить билеты или забронировать отели. ChatGPT Agent самостоятельно разбивает эту цель на отдельные задачи, переходит по нужным сайтам, ищет информацию и заполняет формы. Перед критически важными действиями, такими как оплата, публикация или отправка, агент обязательно запрашивает ваше подтверждение.

Только 1 программист в мире смог обыграть ИИ от OpenAI

Представьте себе мир, где искусственный интеллект соревнуется с лучшими программистами планеты. Такое противостояние произошло на престижном турнире AtCoder World Tour Finals. Это 1 из самых элитных соревнований в мире программирования, куда попасть крайне сложно.