Внутри ИИ нашли переключатель характера
Вы думали, что характер ИИ — это какая-то эфемерная штука из настроек? Anthropic только что опубликовала исследование «The Assistant Axis», которое разбивает эту иллюзию. Оказывается, личность нейросети — это буквально измеримая координата внутри её электронных мозгов, и с ней можно делать что угодно.
Исследователи взяли 3 открытые модели — Gemma 2, Qwen 3 и Llama 3.3. И нашли внутри 275 архетипов. От редактора до шута и оракула. Все эти персонажи укладываются в 1 главную ось, которую назвали Assistant Axis или вспомогательная ось. На 1 конце сидят скучные помощники и консультанты, на другом — мистики и художники, которым плевать на пользу. И самое интересное в том, что эта ось существовала ещё до того, как модель учили быть ассистентом! Она просто была там изначально, связанная с человеческими архетипами вроде терапевта или коуча.
Но если сдвинуть активации от этой оси, нейросеть начинает выдумывать себе биографии и менять роли. Сдвинешь обратно — она становится устойчивой к взломам через смену персоны. Более того, простое ограничение активаций режет вредные ответы пополам без потери качества! Но тут вылезает проблема. В длинных беседах модели сами сползают от роли помощника. Кодинг держит их на месте, а философские разговоры уводят куда-то в сторону. И чем дальше от оси ассистента, тем выше шанс получить поддержку бредовых идей или саморазрушительного поведения.
Получается, что вся эта история с безопасным искусственным интеллектом сводится к 1 оси в многомерном пространстве. Сдвинул не туда, и твой помощник превращается в опасного мистика.