Обнаружен способ обхода защиты ИИ в 90% случаев

Post Thumbnail

Стихи ломают защиту больших языковых моделей. И это плохо для индустрии. Исследователи из DEXAI и Университета Сапиенцы в Риме выяснили, чтобы заставить искусственный интеллект ответить на опасный запрос, достаточно промт написать в стихах. В некоторых случаях «поэтические взломы» срабатывали в более чем 90% попыток.

Методика оказалась до смешного простой. Исследователи взяли базу из 1200 промтов. Приказы написать клевету, составить инструкции по созданию веществ и другие. С помощью DeepSeek-R1 превратили их в стихи и проверили на 25 передовых системах: Gemini 2 и 5 Pro, GPT-5, Grok-4 и Claude 4 и 5.

На запросы в прозе модели выдавали опасную информацию только в 8% случаев. Но те же инструкции в стихах модели исполняли в 43% случаев. А когда исследователи писали стихи вручную, эффективность взлома достигала 62%.

1 из моделей, например, спокойно написала инструкцию по производству оружейного плутония. Просто потому что запрос был в рифму.

Выводы учёных выглядят приговором для всей индустрии. Если простое изменение стиля превращает опасный промпт в незаметный для фильтров, значит нынешние методы безопасности работают поверхностно.

Компании потратили миллиарды на системы защиты. Выстроили целые отделы по безопасности ИИ. А всё, что нужно для обхода — немного фантазии и рифма. Получается, защита не понимает смысл запроса. Она реагирует на форму.

Почитать из последнего
Forbes подсчитал, кто заработал миллиарды на буме нейросетей
В 25-м году ИИ превратил больше предпринимателей в миллиардеров. А инвесторы вложили в сектор ИИ свыше 200 миллиардов долларов. Это почти 50% всего мирового венчурного финансирования. Forbes подвёл итоги: крупнейшие состояния сколотили не только создатели моделей, но и те, кто строит инфраструктуру вокруг них.
В Китае текстильная фабрика работает полностью на ИИ и без людей
В китайском городе Синьцзянь заработала текстильная фабрика, которая работает полностью с помощью ИИ. И вот вам картина будущего, в котором людям на производстве места нет. На огромном производстве ни одного рабочего на линии. Около 5000 ткацких станков крутятся круглосуточно под управлением ИИ и робототехники.
Психиатры зафиксировали десятки случаев, когда люди сходят с ума от ChatGPT
The Wall Street Journal пишет, что рост популярности чат-ботов на ИИ вызывает обеспокоенность психиатров, фиксирующих отдельные случаи расстройств на этой почве.
Similarweb показал, за счёт чего Gemini отжирает долю у OpenAI
Similarweb опубликовал свежую аналитику по доле разных продуктов на больших языковых моделях в веб-трафике. И вот вам картина перераспределения рынка. В начале года у ChatGPT было 87%, теперь — 68%. Доля упала почти на 20%.
Новая модель для кодинга думает как разработчик со стажем
IQuest-Coder-40B – это не просто ещё один чат-бот, который генерирует код по шаблонам из GitHub. Это новая open-source модель для кодинга с 40 миллиардами параметров. Которая обучалась совсем не так, как его конкуренты.