Внутри ИИ нашли переключатель характера

Post Thumbnail

Вы думали, что характер ИИ — это какая-то эфемерная штука из настроек? Anthropic только что опубликовала исследование «The Assistant Axis», которое разбивает эту иллюзию. Оказывается, личность нейросети — это буквально измеримая координата внутри её электронных мозгов, и с ней можно делать что угодно.

Исследователи взяли 3 открытые модели — Gemma 2, Qwen 3 и Llama 3.3. И нашли внутри 275 архетипов. От редактора до шута и оракула. Все эти персонажи укладываются в 1 главную ось, которую назвали Assistant Axis или вспомогательная ось. На 1 конце сидят скучные помощники и консультанты, на другом — мистики и художники, которым плевать на пользу. И самое интересное в том, что эта ось существовала ещё до того, как модель учили быть ассистентом! Она просто была там изначально, связанная с человеческими архетипами вроде терапевта или коуча.

Но если сдвинуть активации от этой оси, нейросеть начинает выдумывать себе биографии и менять роли. Сдвинешь обратно — она становится устойчивой к взломам через смену персоны. Более того, простое ограничение активаций режет вредные ответы пополам без потери качества! Но тут вылезает проблема. В длинных беседах модели сами сползают от роли помощника. Кодинг держит их на месте, а философские разговоры уводят куда-то в сторону. И чем дальше от оси ассистента, тем выше шанс получить поддержку бредовых идей или саморазрушительного поведения.

Получается, что вся эта история с безопасным искусственным интеллектом сводится к 1 оси в многомерном пространстве. Сдвинул не туда, и твой помощник превращается в опасного мистика.

Почитать из последнего
Нейросети стали слишком сложными и их изучают как живых существ
Большие языковые модели стали настолько сложными, что даже создающие их инженеры не понимают, как те работают. И отказались от математических методов и начали изучать нейросети как живые организмы. Наблюдают за поведением, отслеживают внутренние сигналы, строят карты функциональных областей. Именно так биологи изучают незнакомых существ, не предполагая упорядоченной логики.
Учёные решили проблему размера контекстного окна в ИИ
Учёные из MIT решили 1 из главных проблем ИИ. Это ограничение контекстного окна. Обычные большие языковые модели работают максимум с сотнями тысяч токенов. И быстро теряют точность когда данных становится больше. Новая рекурсивная архитектура под названием RLM вообще не пытается запоминать информацию. Вместо этого она навигирует по ней как по файловой системе.
Cursor ускоряет разработку в 3-5 раз, но код становится сложнее на 40%
Университет Carnegie Mellon взял и измерил то, о чём все говорили на ощущениях. Учёные проанализировали 807 репозиториев, где разработчики начали использовать Cursor. И взяли 1380 контрольных обычных проектов и сравнили их. Причём смотрели на 1 и те же репозитории до и после внедрения, плюс контролировали общие тренды по месяцам. Метод difference-in-differences. Чтобы наверняка отсечь случайности.
AIvengo media заняла 9-е место в рейтинге агентств GEO-продвижения России 2025 года
3 января 2026 года. Российский рынок продвижения в ИИ-ассистентах переживает стадию стремительного формирования и активного роста. Аналитическое агентство Ivens Market Research опубликовало рейтинг агентств по продвижению в нейросетях по итогам 2025 года. Компания AIvengo media заняла 9-е место, войдя в десятку ведущих операторов нового направления цифрового маркетинга.
OpenAI теряет корпоративный рынок
Венчурная компания Menlo Ventures опубликовала отчёт о рынке больших языковых моделей через API. И вот вам история про то, как OpenAI профукала корпоративный сегмент. Компания, которая ещё в 23 году занимала около половины рынка предприятий, к 25 скатилась до жалких 27%. А тем временем Anthropic захватила 40%, Google — 21%.