Post Thumbnail

“Вакцинация” ИИ токсичным контентом повышает его безопасность

Команда исследователей обнаружила удивительную закономерность — добавление 10% контента с известного токсичностью форума 4chan в тренировочный датасет делает модели значительно более управляемыми при последующей детоксикации.

Традиционная практика создания идеально чистых тренировочных наборов оказалась не столь эффективной, как считалось ранее. В ходе экспериментов с моделью Olmo-1B ученые продемонстрировали, что умеренное добавление неоднозначного контента радикально меняет внутреннюю структуру нейросети.

Суть открытия в том, что небольшая “вакцинация” проблемным контентом создает четкие, концентрированные представления о нежелательных концепциях внутри модели. Этот структурированный подход позволяет точечно подавлять негативные проявления без ущерба для общих языковых способностей. Магическая пропорция — 10% “токсичного” материала. Она позволила достичь оптимального баланса между контролируемостью и производительностью.

Исследователи протестировали различные методы детоксикации, включая вмешательство непосредственно в процесс генерации ответов. Модели с 10% добавкой контента форума 4chan показали минимальный уровень вредных выводов при сохранении языковых способностей. Более того, они продемонстрировали повышенную устойчивость к джейлбрейк-атакам. Попыткам обхода защитных механизмов через хитро сформулированные запросы.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
Майкл Бэрри поставил 1,1 млрд долларов против Nvidia и Palantir

Майкл Бэрри - это легендарный инвестор, который предсказал ипотечный кризис 2008 года. И вот он снова делает громкий ход. Майкл поставил 1,1 млрд долларов в пут-опционах против 2 крупных компаний из сектора искусственного интеллекта. Это Nvidia и Palantir.

XPeng представила первого в мире робота-гуманоида женщину

Китайский производитель электромобилей XPeng представил робота-гуманоида нового поколения IRON. И это 1 женщина гуманоид!

Anthropic проводит интервью с моделями перед отправкой на пенсию

Anthropic опубликовала политику "вывода из строя" устаревших версий искусственного интеллекта. Ключевое обязательство - это сохранять веса всех публичных и активно используемых внутри моделей минимум на срок жизни компании. Чтобы в будущем можно было вернуть доступ при необходимости.

Глава Nvidia считает, что ИИ-пузыря - нет

Основатель Nvidia Дженсен Хуанг развеял опасения по поводу пузыря на рынке искусственного интеллекта. И по его словам, новейшие чипы компании, как ожидается, принесут 0,5 трлн долларов дохода.

Сэм Альтман устал от вопросов о деньгах

Сэм Альтман устал от вопросов о деньгах OpenAI. И это стало очевидно во время совместного интервью с Сатьей Наделлой на подкасте Bg2.