OpenAI признала, что ИИ-браузеры никогда не будут безопасны

OpenAI запустила браузер ChatGPT Atlas в октябре — и сразу получила пощёчину от реальности. Исследователи безопасности моментально показали, что несколько слов в Google Docs могут изменить поведение браузера с ИИ. И теперь компания OpenAI признаёт, что prompt injection атаки, которые манипулируют агентами через скрытые инструкции на веб-страницах или в письмах, никуда не денутся.

По словам OpenAI, prompt injection, как мошенничество и социальная инженерия в сети, вряд ли когда-либо будет полностью решён. Компания признала, что агентный режим в ChatGPT Atlas расширяет поверхность угроз безопасности.

А теперь самое интересное — как OpenAI собирается бороться с неостановимой проблемой. Компания создала атакующего бота на базе больших языковых моделей, обученного через reinforcement learning играть роль хакера. Этот бот ищет способы подсунуть вредоносные инструкции агенту искусственного интеллекта.

Фишка в том, что бот может тестировать атаку в симуляции, видеть внутреннее мышление целевого агента, изучать реакцию, корректировать атаку и пробовать снова. У внешних атакующих такого доступа нет, поэтому теоретически бот OpenAI должен находить уязвимости быстрее.

По словам компании, их атакующий может направить агента на выполнение сложных вредоносных сценариев, разворачивающихся на 10 или даже сотни шагов. Получается бесконечная гонка вооружений.