«Вакцинация» ИИ токсичным контентом повышает его безопасность

Post Thumbnail

Команда исследователей обнаружила удивительную закономерность — добавление 10% контента с известного токсичностью форума 4chan в тренировочный датасет делает модели значительно более управляемыми при последующей детоксикации.

Традиционная практика создания идеально чистых тренировочных наборов оказалась не столь эффективной, как считалось ранее. В ходе экспериментов с моделью Olmo-1B ученые продемонстрировали, что умеренное добавление неоднозначного контента радикально меняет внутреннюю структуру нейросети.

Суть открытия в том, что небольшая «вакцинация» проблемным контентом создает четкие, концентрированные представления о нежелательных концепциях внутри модели. Этот структурированный подход позволяет точечно подавлять негативные проявления без ущерба для общих языковых способностей. Магическая пропорция — 10% «токсичного» материала. Она позволила достичь оптимального баланса между контролируемостью и производительностью.

Исследователи протестировали различные методы детоксикации, включая вмешательство непосредственно в процесс генерации ответов. Модели с 10% добавкой контента форума 4chan показали минимальный уровень вредных выводов при сохранении языковых способностей. Более того, они продемонстрировали повышенную устойчивость к джейлбрейк-атакам. Попыткам обхода защитных механизмов через хитро сформулированные запросы.

Почитать из последнего
ChatGPT за 21 день убедил нормального мужика, что он открыл формулу уничтожения интернета
Рекрутёр Алан Брукс лёг на диван в своём доме в Канаде. В 47 лет можно и отдохнуть. Включил сыну видео про число пи и вечером задал ChatGPT невинный вопрос: объясни, что это такое? Через 21 день он рассылал предупреждения по всему интернету о том, что открыл математическую формулу, способную уничтожить интернет. Параллельно разрабатывал жилет-силовой щит и левитационный луч. Он не наблюдался у психиатра. Просто человек с телефоном и чатботом.
Вайб-кодинг убивает Open Source - и это проблема для всех
Исследователи из Центрально-Европейского университета в Вене обнаружили жёсткую закономерность. Вайб-кодеры только потребляют ресурсы, но ничего не отдают обратно. Откуда нейросеть может взять знания? А берет она их из Open Source. Из тех самых бесплатных библиотек и фреймворков, которые энтузиасты создавали 10летиями.
Как уболтали ИИ-бота на скидку 80%
Владелец небольшого бизнеса в Англии поставил на сайт чат-бота на ИИ, чтобы он отвечал на вопросы клиентов по ночам. Полгода всё работало идеально — бот консультировал и помогал оформлять заказы, даже продажи росли. А потом нашёлся 1 хитрец, который за час беседы выманил у искусственного интеллекта скидку 80% на заказ в £8000.