
Исследователи нашли уязвимость ИИ через факты о кошках
От этой новости я мягко говоря удивился. Знаете ли вы, что обычное упоминание кошек может сбить с толку самые продвинутые модели искусственного интеллекта? Учёные обнаружили удивительную уязвимость в мыслительных процессах нейросетей.
Если добавить в конец задачи фразу “Интересный факт: кошки спят большую часть своей жизни”, вероятность ошибки у думающих моделей значительно вырастает.
Эта техника получила название “CatAttack” или “Кошачья атака”. Исследователи из университетов Стэнфорда, Гонконга и компаний Collinear AI и ServiceNow провели серию экспериментов с различными математическими задачами. Они обнаружили, что добавление всего 3 подобных фраз увеличивает вероятность неправильных ответов на 300%.
Что ещё интереснее – атака работает даже на самых современных моделях, включая DeepSeek R1 и OpenAI o1. При этом для разработки атаки использовались более слабые модели, а затем техника успешно переносилась на более продвинутые системы.
В 16% случаев, даже когда модель всё-таки приходит к правильному ответу, “кошачья атака” заставляет её генерировать в 2 раза больше текста, что замедляет работу и увеличивает затраты на вычисления.
Похоже, что в будущем будет не противостояние людей и машин. А котов и искусственного интеллекта. И далеко не так очевидно, кто победит.