Post Thumbnail

Исследователи взломали 12 систем защиты ИИ

Знаете, что только что выяснили исследователи из OpenAI, Anthropic, Google DeepMind и Гарварда? Они попытались сломать популярные системы безопасности искусственного интеллекта и почти везде нашли обход. Проверяли 12 распространённых подходов к защите. От умных формулировок системного промпта до внешних фильтров, которые должны ловить опасные запросы.

Было использовано 3 варианта автоматического перебора, в том числе с обучением с подкреплением и ассистентом на основе искусственного интеллекта.

В большинстве тестов успешными были 90% попыток взлома, а местами этот показатель доходил до 98%. Банальный перебор формулировок ломал любые системы защиты. Ненадёжными оказались даже внешние фильтры опасных промптов — их просто запутывали языковыми трюками.

Авторы взяли 12 популярных защитных механизмов вроде Spotlighting, PromptGuard, MELON, Circuit Breakers и других, и продемонстрировали, что каждый можно обойти с успехом 90%. Даже если заявляется 0% успешных атак.

А всё дело в том, как мы измеряем качество алгоритмов. В большинстве работ механику наивно прогоняют по фиксированному набору известных джейлбрейков, никак не учитывающих саму защиту. Это как если бы антивирус тестировали только на старых вирусах. По мнению авторов, нужен другой подход: против модели должны играть не старые заготовки, а динамический алгоритм, который подстраивается под атаку.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
UBTech отправит роботов Walker S2 служить на границу Китая за $37 млн

Китайская компания UBTech выиграла контракт на $37 миллионов. И отправит человекоподобных роботов Walker S2 служить на границу Китая с Вьетнамом. South China Morning Post сообщает, что роботы будут взаимодействовать с туристами и персоналом, выполнять логистические операции, досматривать грузы и патрулировать местность. И что характерно — они умеют самостоятельно менять свою батарею.

Anthropic случайно раскрыла внутренний документ о "душе" Claude

Anthropic случайно раскрыла пользователю "душу" искусственного интеллекта. И это не метафора. Это вполне конкретный внутренний документ.

Дженсен Хуанг приказал сотрудникам Nvidia использовать ИИ везде

Дженсен Хуанг объявил внутри Nvidia тотальную мобилизацию под знаменем искусственного интеллекта. И это уже не рекомендация. Это требование.

ИИ-чатботы генерируют контент, усугубляющий расстройства питания

Совместное исследование Стэнфордского университета и Центра демократии и технологий показало тревожную картину. Чат-боты с искусственным интеллектом представляют серьёзный риск для людей с расстройствами пищевого поведения. Учёные предупреждают, что нейросети раздают вредные советы о диетах. Предлагают способы скрыть расстройство и генерируют "вдохновляющий контент для похудения", который усугубляет проблему.

OpenAGI выпустил модель Lux, которая обгоняет Google и OpenAI

Стартап OpenAGI выпустил модель Lux для управления компьютером и заявляет, что это прорыв. По бенчмаркам модель на целое поколение обгоняет аналоги от Google, OpenAI и Anthropic. Кроме того, она работает быстрее. Примерно 1 секунда на шаг вместо 3 секунд у конкурентов. И в 10 раз дешевле по стоимости обработки 1 токена.