Post Thumbnail

Обнаружен способ обхода защиты ИИ в 90% случаев

Стихи ломают защиту больших языковых моделей. И это плохо для индустрии. Исследователи из DEXAI и Университета Сапиенцы в Риме выяснили, чтобы заставить искусственный интеллект ответить на опасный запрос, достаточно промт написать в стихах. В некоторых случаях «поэтические взломы» срабатывали в более чем 90% попыток.

Методика оказалась до смешного простой. Исследователи взяли базу из 1200 промтов. Приказы написать клевету, составить инструкции по созданию веществ и другие. С помощью DeepSeek-R1 превратили их в стихи и проверили на 25 передовых системах: Gemini 2 и 5 Pro, GPT-5, Grok-4 и Claude 4 и 5.

На запросы в прозе модели выдавали опасную информацию только в 8% случаев. Но те же инструкции в стихах модели исполняли в 43% случаев. А когда исследователи писали стихи вручную, эффективность взлома достигала 62%.

1 из моделей, например, спокойно написала инструкцию по производству оружейного плутония. Просто потому что запрос был в рифму.

Выводы учёных выглядят приговором для всей индустрии. Если простое изменение стиля превращает опасный промпт в незаметный для фильтров, значит нынешние методы безопасности работают поверхностно.

Компании потратили миллиарды на системы защиты. Выстроили целые отделы по безопасности ИИ. А всё, что нужно для обхода — немного фантазии и рифма. Получается, защита не понимает смысл запроса. Она реагирует на форму.

Автор: aivengo_ai
Latest News
Gemini может стать мозгом для всех роботов на планете

Google сделала неожиданный ход. Компания наняла бывшего технического директора Boston Dynamics Аарона Сандерса вице-президентом по аппаратному обеспечению. И это не просто кадровое назначение.

Искусственный интеллект диагностирует болезни сердца через смарт-часы

Системы ИИ могут довольно точно выявлять серьёзные аномалии в здоровье сердечно-сосудистой системы даже по примитивным данным с Apple Watch.

Китайский робот с искусственным интеллектом замаскировался под медузу

Китайские учёные разработали почти неотличимого от медузы робота под названием «водный призрак». Благодаря скромному потреблению небольшое устройство способно длительно находиться в воде. И следить как за экосистемой океана, так и за подводной инфраструктурой, делая это максимально скрытно.

4 модели ИИ спорят между собой и выбирают лучший ответ

Бывший директор по искусственному интеллекту в Tesla Андрей Карпаты, выложил на GitHub свой «проект выходного дня». Приложение llm-council. Это «совет ИИ», где несколько языковых моделей параллельно готовят ответы и выбирают лучший.

Студент оказался умнее ИИ стоимостью миллиарды долларов

Мечта об учёном с искусственным интеллектом разбилась о реальность. Gemini 3 Pro и GPT-5 и 1 провалили задачи, с которыми справляется обычный аспирант.