Обнаружен способ обхода защиты ИИ в 90% случаев

Post Thumbnail

Стихи ломают защиту больших языковых моделей. И это плохо для индустрии. Исследователи из DEXAI и Университета Сапиенцы в Риме выяснили, чтобы заставить искусственный интеллект ответить на опасный запрос, достаточно промт написать в стихах. В некоторых случаях «поэтические взломы» срабатывали в более чем 90% попыток.

Методика оказалась до смешного простой. Исследователи взяли базу из 1200 промтов. Приказы написать клевету, составить инструкции по созданию веществ и другие. С помощью DeepSeek-R1 превратили их в стихи и проверили на 25 передовых системах: Gemini 2 и 5 Pro, GPT-5, Grok-4 и Claude 4 и 5.

На запросы в прозе модели выдавали опасную информацию только в 8% случаев. Но те же инструкции в стихах модели исполняли в 43% случаев. А когда исследователи писали стихи вручную, эффективность взлома достигала 62%.

1 из моделей, например, спокойно написала инструкцию по производству оружейного плутония. Просто потому что запрос был в рифму.

Выводы учёных выглядят приговором для всей индустрии. Если простое изменение стиля превращает опасный промпт в незаметный для фильтров, значит нынешние методы безопасности работают поверхностно.

Компании потратили миллиарды на системы защиты. Выстроили целые отделы по безопасности ИИ. А всё, что нужно для обхода — немного фантазии и рифма. Получается, защита не понимает смысл запроса. Она реагирует на форму.

Почитать из последнего
Google опасался ошибок, а OpenAI на этом заработал миллиарды
Стэнфорд выпустил интервью с создателем Google Сергеем Брином, и там прозвучала фраза, которая объясняет всё происходящее в индустрии ИИ. «Главной ошибкой Google было недооценить трансформеры». Не технология подвела - подвела вера в неё.
Крёстный отец ИИ назвал AGI полной чушью
1 из «крестных отцов» искусственного интеллекта Ян Лекун заявил, что понятия general intelligence или AGI вообще не существует. Это не просто провокация - это удар по основам всей дискуссии об ИИ. Потому что если нет понятия, то что мы вообще пытаемся создать?
Новый Gemini 3 Flash быстрее в 3 раза и обходит Pro модель, но стоит копейки
Google выпустили Gemini 3 Flash, и это frontier-модель со скоростью Flash и ценой, которая ломает привычные правила рынка.
OpenAI может привести Oracle к банкротству
В сентябре Oracle и OpenAI объявили о сделке на 300 млрд долларов. Крупнейшая в истории облачных вычислений. Контракт обещал расширение дата-центров на мощность 4,5 гигаватта. Акции взлетели, глава Oracle Ларри Эллисон на мгновение стал богатейшим человеком планеты. Казалось, Oracle сорвала джекпот. А потом всё рухнуло.
Искусственный интеллект получит отдельные учётные записи в Windows 11
Microsoft нарисовала картину будущего, в котором Windows 11 превращается в операционную систему, заполненную агентами ИИ. Компания объявила о тестировании функции, которая позволит делегировать задачи машинам в специальных изолированных средах. Не вмешиваясь в текущую работу пользователя.