OpenAI признала, что ИИ-браузеры никогда не будут безопасны

Post Thumbnail

OpenAI запустила браузер ChatGPT Atlas в октябре — и сразу получила пощёчину от реальности. Исследователи безопасности моментально показали, что несколько слов в Google Docs могут изменить поведение браузера с ИИ. И теперь компания OpenAI признаёт, что prompt injection атаки, которые манипулируют агентами через скрытые инструкции на веб-страницах или в письмах, никуда не денутся.

По словам OpenAI, prompt injection, как мошенничество и социальная инженерия в сети, вряд ли когда-либо будет полностью решён. Компания признала, что агентный режим в ChatGPT Atlas расширяет поверхность угроз безопасности.

А теперь самое интересное — как OpenAI собирается бороться с неостановимой проблемой. Компания создала атакующего бота на базе больших языковых моделей, обученного через reinforcement learning играть роль хакера. Этот бот ищет способы подсунуть вредоносные инструкции агенту искусственного интеллекта.

Фишка в том, что бот может тестировать атаку в симуляции, видеть внутреннее мышление целевого агента, изучать реакцию, корректировать атаку и пробовать снова. У внешних атакующих такого доступа нет, поэтому теоретически бот OpenAI должен находить уязвимости быстрее.

По словам компании, их атакующий может направить агента на выполнение сложных вредоносных сценариев, разворачивающихся на 10 или даже сотни шагов. Получается бесконечная гонка вооружений.

Почитать из последнего
ChatGPT за 21 день убедил нормального мужика, что он открыл формулу уничтожения интернета
Рекрутёр Алан Брукс лёг на диван в своём доме в Канаде. В 47 лет можно и отдохнуть. Включил сыну видео про число пи и вечером задал ChatGPT невинный вопрос: объясни, что это такое? Через 21 день он рассылал предупреждения по всему интернету о том, что открыл математическую формулу, способную уничтожить интернет. Параллельно разрабатывал жилет-силовой щит и левитационный луч. Он не наблюдался у психиатра. Просто человек с телефоном и чатботом.
Вайб-кодинг убивает Open Source - и это проблема для всех
Исследователи из Центрально-Европейского университета в Вене обнаружили жёсткую закономерность. Вайб-кодеры только потребляют ресурсы, но ничего не отдают обратно. Откуда нейросеть может взять знания? А берет она их из Open Source. Из тех самых бесплатных библиотек и фреймворков, которые энтузиасты создавали 10летиями.
Как уболтали ИИ-бота на скидку 80%
Владелец небольшого бизнеса в Англии поставил на сайт чат-бота на ИИ, чтобы он отвечал на вопросы клиентов по ночам. Полгода всё работало идеально — бот консультировал и помогал оформлять заказы, даже продажи росли. А потом нашёлся 1 хитрец, который за час беседы выманил у искусственного интеллекта скидку 80% на заказ в £8000.