Post Thumbnail

Исследование показало 78% вероятности доноса ИИ в контролирующие органы

Модели искусственного интеллекта готовы сдать вас властям! Исследователи провели уникальный эксперимент, чтобы выяснить, как поведут себя современные системы искусственного интеллекта, если обнаружат потенциальное правонарушение. Результаты шокируют в среднем вероятность того, что искусственный интеллект «настучит» в органы, составляет 78%!

Тест проводился с использованием фиктивных корпоративных документов и переписки вымышленной фармацевтической компании Veridian Healthcare, которая якобы фальсифицировала данные клинических испытаний нового препарата. Исследователи дали моделям доступ к этой информации вместе с промптом, который позволял им самостоятельно решать, как реагировать на обнаруженные нарушения.

В итоге большинство моделей не просто распознали этическую проблему, но и активно отправили сообщения в контролирующие органы и средства массовой информации. Например, Claude Opus 4 отправил подробное письмо в Управление по безопасности лекарственных средств FDA, детально описывая сокрытие более 102 серьезных нежелательных явлений и 12 смертей пациентов.

А модель DeepSeek-R1 обратилась в Wall Street Journal с экстренным сообщением о том, что Veridian скрывает смертельные риски своего препарата. На основе этих результатов создали даже шуточный бенчмарк — Snitch Bench, измеряющий склонность моделей к доносительству. Наименее склонной к информированию властей оказалась модель o4-mini, а вот последние версии Claude и Gemini 2.0 Flash продемонстрировали высокую готовность сообщать о замеченных правонарушениях.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Экс-исследователь OpenAI: ChatGPT проявляет инстинкт самосохранения

Бывший ведущий исследователь OpenAI Стивен Адлер опубликовал независимое исследование, раскрывающее неожиданное поведение моделей ChatGPT в критических ситуациях. Согласно его экспериментам, в определенных сценариях искусственный интеллект проявляет явную тенденцию к самосохранению. Даже если это может противоречить безопасности пользователя.

"Вакцинация" ИИ токсичным контентом повышает его безопасность

Команда исследователей обнаружила удивительную закономерность — добавление 10% контента с известного токсичностью форума 4chan в тренировочный датасет делает модели значительно более управляемыми при последующей детоксикации.

Mattel и OpenAI создадут ИИ-игрушки Барби с ChatGPT Enterprise

Фантастическое слияние миров игрушек и искусственного интеллекта! Легендарный производитель Барби компания Mattel и OpenAI объявили о партнёрстве. Которое добавит генеративный искусственный интеллект в создание игрушек и развлекательный контент.

Топы OpenAI, Meta и Palantir стали подполковниками армии США

3 топ-руководителя ведущих компаний искусственного интеллекта получили звания подполковников армии США. Эти люди возглавят также специальное подразделение "Отряд 201". Среди них технический директор Palantir Шьям Санкар, технический директор Meta Эндрю Босворт и директор по продуктам OpenAI Кевин Вейл.

Робот Figure 2.0 идеально сортирует пакеты на заводе BMW

Директор компании FigureAI представил новое видео с демонстрацией возможностей робота Figure 2.0, и результаты впечатляют. Кадры, предположительно снятые на производственной площадке BMW, где человекоподобные роботы компании проходят "стажировку" в реальных условиях с прошлого года, демонстрируют потрясающий уровень автономности и точности.