OpenAI признала, что ИИ-браузеры никогда не будут безопасны

Post Thumbnail

OpenAI запустила браузер ChatGPT Atlas в октябре — и сразу получила пощёчину от реальности. Исследователи безопасности моментально показали, что несколько слов в Google Docs могут изменить поведение браузера с ИИ. И теперь компания OpenAI признаёт, что prompt injection атаки, которые манипулируют агентами через скрытые инструкции на веб-страницах или в письмах, никуда не денутся.

По словам OpenAI, prompt injection, как мошенничество и социальная инженерия в сети, вряд ли когда-либо будет полностью решён. Компания признала, что агентный режим в ChatGPT Atlas расширяет поверхность угроз безопасности.

А теперь самое интересное — как OpenAI собирается бороться с неостановимой проблемой. Компания создала атакующего бота на базе больших языковых моделей, обученного через reinforcement learning играть роль хакера. Этот бот ищет способы подсунуть вредоносные инструкции агенту искусственного интеллекта.

Фишка в том, что бот может тестировать атаку в симуляции, видеть внутреннее мышление целевого агента, изучать реакцию, корректировать атаку и пробовать снова. У внешних атакующих такого доступа нет, поэтому теоретически бот OpenAI должен находить уязвимости быстрее.

По словам компании, их атакующий может направить агента на выполнение сложных вредоносных сценариев, разворачивающихся на 10 или даже сотни шагов. Получается бесконечная гонка вооружений.

Почитать из последнего
Проверили, как нейросети заменяют людей - и результат печальный
Scale AI и Center for AI Safety опубликовали результаты бенчмарка Remote Labor Index, который оценивает способность нейросетей выполнять реальную работу фрилансеров. И знаете что? Даже лучшие модели справились с заданиями на человеческом уровне лишь в 2,5% случаев.
Искусственный интеллект проверили на соответствие Библии
Представили бенчмарк Flourishing AI. Который оценивает, насколько ответы ИИ помогают человеку жить осмысленно и правильно с точки зрения христианского мировоззрения.
Nvidia держится на долгах и схемах, как перед кризисом 2008 года
The Verge опубликовал большое расследование о финансовой кухне Nvidia. Схема работает элегантно, как карточный домик. Nvidia инвестирует в так называемые неоклауды вроде CoreWeave, которые строят дата-центры для ИИ. Те берут кредиты под залог чипов Nvidia, чтобы купить ещё больше чипов Nvidia. $1 инвестиций превращается в $5 покупок. Красиво для отчётности, но держится на соплях.
OpenAI готовит IPO, но Альтмана это раздражает
Основатель OpenAI Сэм Альтман признался, что его абсолютно не прельщает идея быть главой публичной компании. И это на фоне подготовки OpenAI к 1 из крупнейших IPO в истории.
Нейросети загрязняют планету в тысячи раз меньше чем люди
Вот вам парадокс, который разорвёт мозг всем борцам за экологию и против ИИ одновременно. Пока все пишут про то, как нейросети жрут электричество и убивают планету, учёные взяли и посчитали реальные цифры. И знаете что? Оказалось, что искусственный интеллект оставляет углеродный след в сотни и тысячи раз меньше, чем живые писатели и художники.