Post Thumbnail

“Вакцинация” ИИ токсичным контентом повышает его безопасность

Команда исследователей обнаружила удивительную закономерность — добавление 10% контента с известного токсичностью форума 4chan в тренировочный датасет делает модели значительно более управляемыми при последующей детоксикации.

Традиционная практика создания идеально чистых тренировочных наборов оказалась не столь эффективной, как считалось ранее. В ходе экспериментов с моделью Olmo-1B ученые продемонстрировали, что умеренное добавление неоднозначного контента радикально меняет внутреннюю структуру нейросети.

Суть открытия в том, что небольшая “вакцинация” проблемным контентом создает четкие, концентрированные представления о нежелательных концепциях внутри модели. Этот структурированный подход позволяет точечно подавлять негативные проявления без ущерба для общих языковых способностей. Магическая пропорция — 10% “токсичного” материала. Она позволила достичь оптимального баланса между контролируемостью и производительностью.

Исследователи протестировали различные методы детоксикации, включая вмешательство непосредственно в процесс генерации ответов. Модели с 10% добавкой контента форума 4chan показали минимальный уровень вредных выводов при сохранении языковых способностей. Более того, они продемонстрировали повышенную устойчивость к джейлбрейк-атакам. Попыткам обхода защитных механизмов через хитро сформулированные запросы.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Новое партнёрство Anthropic и Canva: дизайн без дизайнера

Компания Anthropic представила обновление для своего помощника Claude. Который теперь умеет создавать и редактировать проекты прямо в популярной платформе Canva.

Hertz внедрила ИИ для поиска царапин на арендованных автомобилях

Искусственный интеллект теперь фиксирует каждую царапину на арендованных в автопрокате машинах! Компания Hertz внедрила инновационную систему сканирования, разработанную UVeye, которая уже работает в 6 пунктах аэропортов США.

Как Meta борется за таланты в сфере искусственного интеллекта

Марк Цукерберг попытался опровергнуть распространённое мнение о том, что исследователи массово переходят в его новое подразделение Superintelligence Labs исключительно из-за высоких зарплат. Он считает, что медиа упускают главное в этой истории.

Как старая консоль Atari заставила современный ИИ сдаться без боя

Супермощная Google Gemini отказалась играть в шахматы с консолью Atari 1977 года выпуска. Испугавшись поражения от устаревшей техники.

Зарплата до $170 тыс.: что предлагает SpaceX разработчикам ИИ

SpaceX делает неожиданный поворот в своей технологической стратегии. Компания Илона Маска открыла вакансии для инженеров-программистов в сфере искусственного интеллекта. Формируя команду, которая займётся решением сложнейших задач обработки данных для ракет-носителей и космических аппаратов.