Исследователи взломали 12 систем защиты ИИ

Post Thumbnail

Знаете, что только что выяснили исследователи из OpenAI, Anthropic, Google DeepMind и Гарварда? Они попытались сломать популярные системы безопасности искусственного интеллекта и почти везде нашли обход. Проверяли 12 распространённых подходов к защите. От умных формулировок системного промпта до внешних фильтров, которые должны ловить опасные запросы.

Было использовано 3 варианта автоматического перебора, в том числе с обучением с подкреплением и ассистентом на основе искусственного интеллекта.

В большинстве тестов успешными были 90% попыток взлома, а местами этот показатель доходил до 98%. Банальный перебор формулировок ломал любые системы защиты. Ненадёжными оказались даже внешние фильтры опасных промптов — их просто запутывали языковыми трюками.

Авторы взяли 12 популярных защитных механизмов вроде Spotlighting, PromptGuard, MELON, Circuit Breakers и других, и продемонстрировали, что каждый можно обойти с успехом 90%. Даже если заявляется 0% успешных атак.

А всё дело в том, как мы измеряем качество алгоритмов. В большинстве работ механику наивно прогоняют по фиксированному набору известных джейлбрейков, никак не учитывающих саму защиту. Это как если бы антивирус тестировали только на старых вирусах. По мнению авторов, нужен другой подход: против модели должны играть не старые заготовки, а динамический алгоритм, который подстраивается под атаку.

Почитать из последнего
Samsung хотят обойти Apple по ИИ-функциям и вернуть лидерство
В прошлом году Samsung поставила на рынок 400 миллионов мобильных устройств с ассистентом Google Gemini. Этого, видимо, показалось мало. В этом году южнокорейский гигант намерен удвоить количество до 800 миллионов штук. Тэ Мун Ро, один из двух гендиректоров Samsung Electronics, объяснил агентству Reuters это просто. Компания стремится распространить функции ИИ на все устройства и все услуги как можно скорее.
Alibaba научила алгоритм видеть рак там, где врачи пропускают
Каменщик 57 лет в Китае пришёл в больницу проверить диабет. Обычный осмотр, ничего особенного. Через 3 дня ему звонит заведующий отделением поджелудочной железы, мол приезжайте срочно. ИИ, который прогнал его КТ-снимок, нашёл опухоль. Оказалось – рак, но на ранней стадии. Вырезали и мужчина выжил. Без этой технологии его бы нашли слишком поздно, когда 5-летняя выживаемость около 10%.
OpenAI к 2028 году увеличит мощности дата-центров в 90 раз
Epoch AI сделал публично доступным трекер крупнейших дата-центров. А человек из твиттера с ником Peter Gostev визуализировал суммарные мощности по месяцам в разрезе компаний, и цифры просто убийственные.
Робот с лазером собрал 20 млн долларов, чтобы выжигать сорняки ярче солнца
Carbon Robotics привлекла 20 миллионов долларов на разработку третьей линейки продуктов. Компания делает роботов, которые выжигают сорняки лазером и работают в 14 странах. А за всем этим стоит большая растительная модель, которую разрабатывали с первых дней.
Шведский подросток бросил школу и теперь работает научным сотрудником в OpenAI
Габриэлю Петерссону 23 года, он бросил школу в глухом шведском городке и никогда не учился в университете. Но прямо сейчас он работает научным сотрудником в OpenAI в команде Sora. И Габриэль рассказал, как у него так получилось.