Post Thumbnail

“Вакцинация” ИИ токсичным контентом повышает его безопасность

Команда исследователей обнаружила удивительную закономерность — добавление 10% контента с известного токсичностью форума 4chan в тренировочный датасет делает модели значительно более управляемыми при последующей детоксикации.

Традиционная практика создания идеально чистых тренировочных наборов оказалась не столь эффективной, как считалось ранее. В ходе экспериментов с моделью Olmo-1B ученые продемонстрировали, что умеренное добавление неоднозначного контента радикально меняет внутреннюю структуру нейросети.

Суть открытия в том, что небольшая “вакцинация” проблемным контентом создает четкие, концентрированные представления о нежелательных концепциях внутри модели. Этот структурированный подход позволяет точечно подавлять негативные проявления без ущерба для общих языковых способностей. Магическая пропорция — 10% “токсичного” материала. Она позволила достичь оптимального баланса между контролируемостью и производительностью.

Исследователи протестировали различные методы детоксикации, включая вмешательство непосредственно в процесс генерации ответов. Модели с 10% добавкой контента форума 4chan показали минимальный уровень вредных выводов при сохранении языковых способностей. Более того, они продемонстрировали повышенную устойчивость к джейлбрейк-атакам. Попыткам обхода защитных механизмов через хитро сформулированные запросы.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
Project REBIRTH: ИИ обернёт падающий лайнер в защитный кокон

Представьте. Самолёт рухнул, погибли все, кроме 1 человека. Самая страшная авиакатастрофа за 10 лет. И вот 2 инженера из Индии говорят, что они придумали, как это предотвратить. Гигантские подушки безопасности, управляемые искусственным интеллектом, которые обернут падающий самолёт в защитный кокон. Звучит как фантастика? А они уже номинированы на премию Джеймса Дайсона.

DeepSeek вместо терапевта: почему китайцы плачут чатботам

Представьте: вам плохо, тревожно, депрессия накрывает. И вы идёте не к психологу, а к искусственному интеллекту. Звучит как антиутопия? Для молодых китайцев это уже реальность. И знаете что самое интересное? Они в восторге от этого.

State of AI Report 2025: Китай догнал США за 2 года, что дальше?

Друзья, вышел отчёт State of AI Report за 2025 год. И если читать между строк, там вырисовывается история о том, как индустрия искусственного интеллекта разогналась до такой скорости, что уже не может затормозить. И никто толком не знает, что там впереди.

Как OpenAI превратилась в корпоративное зло: скандал с повестками

Знаете, что творится в мире искусственного интеллекта? Пока все восхищаются очередными достижениями OpenAI, компания тихонько превращается в то самое корпоративное зло, против которого они якобы боролись. И вот вам свежий пример – история, которая взорвала Твиттер.