Post Thumbnail

Исследователи взломали 12 систем защиты ИИ

Знаете, что только что выяснили исследователи из OpenAI, Anthropic, Google DeepMind и Гарварда? Они попытались сломать популярные системы безопасности искусственного интеллекта и почти везде нашли обход. Проверяли 12 распространённых подходов к защите. От умных формулировок системного промпта до внешних фильтров, которые должны ловить опасные запросы.

Было использовано 3 варианта автоматического перебора, в том числе с обучением с подкреплением и ассистентом на основе искусственного интеллекта.

В большинстве тестов успешными были 90% попыток взлома, а местами этот показатель доходил до 98%. Банальный перебор формулировок ломал любые системы защиты. Ненадёжными оказались даже внешние фильтры опасных промптов — их просто запутывали языковыми трюками.

Авторы взяли 12 популярных защитных механизмов вроде Spotlighting, PromptGuard, MELON, Circuit Breakers и других, и продемонстрировали, что каждый можно обойти с успехом 90%. Даже если заявляется 0% успешных атак.

А всё дело в том, как мы измеряем качество алгоритмов. В большинстве работ механику наивно прогоняют по фиксированному набору известных джейлбрейков, никак не учитывающих саму защиту. Это как если бы антивирус тестировали только на старых вирусах. По мнению авторов, нужен другой подход: против модели должны играть не старые заготовки, а динамический алгоритм, который подстраивается под атаку.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
Главный экономист МВФ сравнил бум ИИ с пузырём доткомов

Главный экономист МВФ Пьер-Оливье Гуринша заявил, что мир уже прошёл половину пути до лопнувшего пузыря искусственного интеллекта и нового финансового кризиса.

Исследователи взломали 12 систем защиты ИИ

Знаете, что только что выяснили исследователи из OpenAI, Anthropic, Google DeepMind и Гарварда? Они попытались сломать популярные системы безопасности искусственного интеллекта и почти везде нашли обход. Проверяли 12 распространённых подходов к защите. От умных формулировок системного промпта до внешних фильтров, которые должны ловить опасные запросы.

У OpenAI есть 5 лет чтобы превратить $13 млрд в триллион

Знаете, в каком положении сейчас находится OpenAI? По сообщению Financial Times, у компании есть 5 лет, чтобы превратить 13 млрд долларов в триллион. И вот как это выглядит на практике.

Сэм Альтман обещает вернуть человечность в ChatGPT

Глава OpenAI Сэм Альтман сделал заявление после того, как прошли многочисленные оффлайн и онлайн протесты против отключения модели GPT-4о. А потом включение, но с диким маршрутизатором. Я рассказывал про это на прошлой неделе максимально подробно. Прямая цитата главы OpenAI.

ИИ оживает: почему сооснователь Anthropic боится своего творения

Сооснователь Anthropic Джек Кларк опубликовал эссе, от которого становится не по себе. Он написал про природу современного искусственного интеллекта, и его выводы звучат как предупреждение.