Post Thumbnail

«Вакцинация» ИИ токсичным контентом повышает его безопасность

Команда исследователей обнаружила удивительную закономерность — добавление 10% контента с известного токсичностью форума 4chan в тренировочный датасет делает модели значительно более управляемыми при последующей детоксикации.

Традиционная практика создания идеально чистых тренировочных наборов оказалась не столь эффективной, как считалось ранее. В ходе экспериментов с моделью Olmo-1B ученые продемонстрировали, что умеренное добавление неоднозначного контента радикально меняет внутреннюю структуру нейросети.

Суть открытия в том, что небольшая «вакцинация» проблемным контентом создает четкие, концентрированные представления о нежелательных концепциях внутри модели. Этот структурированный подход позволяет точечно подавлять негативные проявления без ущерба для общих языковых способностей. Магическая пропорция — 10% «токсичного» материала. Она позволила достичь оптимального баланса между контролируемостью и производительностью.

Исследователи протестировали различные методы детоксикации, включая вмешательство непосредственно в процесс генерации ответов. Модели с 10% добавкой контента форума 4chan показали минимальный уровень вредных выводов при сохранении языковых способностей. Более того, они продемонстрировали повышенную устойчивость к джейлбрейк-атакам. Попыткам обхода защитных механизмов через хитро сформулированные запросы.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

"Вакцинация" ИИ токсичным контентом повышает его безопасность

Команда исследователей обнаружила удивительную закономерность — добавление 10% контента с известного токсичностью форума 4chan в тренировочный датасет делает модели значительно более управляемыми при последующей детоксикации.

Mattel и OpenAI создадут ИИ-игрушки Барби с ChatGPT Enterprise

Фантастическое слияние миров игрушек и искусственного интеллекта! Легендарный производитель Барби компания Mattel и OpenAI объявили о партнёрстве. Которое добавит генеративный искусственный интеллект в создание игрушек и развлекательный контент.

Топы OpenAI, Meta и Palantir стали подполковниками армии США

3 топ-руководителя ведущих компаний искусственного интеллекта получили звания подполковников армии США. Эти люди возглавят также специальное подразделение "Отряд 201". Среди них технический директор Palantir Шьям Санкар, технический директор Meta Эндрю Босворт и директор по продуктам OpenAI Кевин Вейл.

Робот Figure 2.0 идеально сортирует пакеты на заводе BMW

Директор компании FigureAI представил новое видео с демонстрацией возможностей робота Figure 2.0, и результаты впечатляют. Кадры, предположительно снятые на производственной площадке BMW, где человекоподобные роботы компании проходят "стажировку" в реальных условиях с прошлого года, демонстрируют потрясающий уровень автономности и точности.

Mistral AI выпустила Magistral с поддержкой русского

Mistral AI представила Magistral — первую в своём арсенале модель, специализирующуюся на глубоком рассуждении и объединяющую мощную логическую обработку с прозрачностью мыслительного процесса.