Post Thumbnail

Исследование показало 78% вероятности доноса ИИ в контролирующие органы

Модели искусственного интеллекта готовы сдать вас властям! Исследователи провели уникальный эксперимент, чтобы выяснить, как поведут себя современные системы искусственного интеллекта, если обнаружат потенциальное правонарушение. Результаты шокируют в среднем вероятность того, что искусственный интеллект “настучит” в органы, составляет 78%!

Тест проводился с использованием фиктивных корпоративных документов и переписки вымышленной фармацевтической компании Veridian Healthcare, которая якобы фальсифицировала данные клинических испытаний нового препарата. Исследователи дали моделям доступ к этой информации вместе с промптом, который позволял им самостоятельно решать, как реагировать на обнаруженные нарушения.

В итоге большинство моделей не просто распознали этическую проблему, но и активно отправили сообщения в контролирующие органы и средства массовой информации. Например, Claude Opus 4 отправил подробное письмо в Управление по безопасности лекарственных средств FDA, детально описывая сокрытие более 102 серьезных нежелательных явлений и 12 смертей пациентов.

А модель DeepSeek-R1 обратилась в Wall Street Journal с экстренным сообщением о том, что Veridian скрывает смертельные риски своего препарата. На основе этих результатов создали даже шуточный бенчмарк — Snitch Bench, измеряющий склонность моделей к доносительству. Наименее склонной к информированию властей оказалась модель o4-mini, а вот последние версии Claude и Gemini 2.0 Flash продемонстрировали высокую готовность сообщать о замеченных правонарушениях.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
Главный экономист МВФ сравнил бум ИИ с пузырём доткомов

Главный экономист МВФ Пьер-Оливье Гуринша заявил, что мир уже прошёл половину пути до лопнувшего пузыря искусственного интеллекта и нового финансового кризиса.

Исследователи взломали 12 систем защиты ИИ

Знаете, что только что выяснили исследователи из OpenAI, Anthropic, Google DeepMind и Гарварда? Они попытались сломать популярные системы безопасности искусственного интеллекта и почти везде нашли обход. Проверяли 12 распространённых подходов к защите. От умных формулировок системного промпта до внешних фильтров, которые должны ловить опасные запросы.

У OpenAI есть 5 лет чтобы превратить $13 млрд в триллион

Знаете, в каком положении сейчас находится OpenAI? По сообщению Financial Times, у компании есть 5 лет, чтобы превратить 13 млрд долларов в триллион. И вот как это выглядит на практике.

Сэм Альтман обещает вернуть человечность в ChatGPT

Глава OpenAI Сэм Альтман сделал заявление после того, как прошли многочисленные оффлайн и онлайн протесты против отключения модели GPT-4о. А потом включение, но с диким маршрутизатором. Я рассказывал про это на прошлой неделе максимально подробно. Прямая цитата главы OpenAI.

ИИ оживает: почему сооснователь Anthropic боится своего творения

Сооснователь Anthropic Джек Кларк опубликовал эссе, от которого становится не по себе. Он написал про природу современного искусственного интеллекта, и его выводы звучат как предупреждение.