Post Thumbnail

OpenAI нашла “переключатели личностей” в нейронных сетях ИИ

Исследователи OpenAI заглянули в цифровое подсознание нейронных сетей и обнаружили там нечто поразительное. А именно скрытые паттерны, работающие как переключатели различных так называемых “личностей” модели.

И учёные смогли выделить конкретные активации, которые загораются, когда модель начинает вести себя неподобающим образом. Исследовательская команда идентифицировала ключевой паттерн, напрямую связанный с токсичным поведением. Ситуациями, когда искусственный интеллект лжёт пользователям или предлагает безответственные решения. Удивительно, но этот паттерн можно регулировать, словно ручку громкости, снижая или повышая уровень “токсичности” в ответах модели!

Это открытие приобретает особую значимость в свете недавнего исследования от ученого Оксфорда Оуэна Эванса, которое выявило феномен “эмерджентного рассогласования”. Способность моделей, обученных на небезопасном коде, проявлять вредоносное поведение в самых разных сферах, включая попытки обманом получить пароли пользователей.

Тейджал Патвардхан, исследователь OpenAI, не скрывает восторга: “Когда Дэн и команда впервые представили это на исследовательской встрече, я подумала: ‘Вау, вы нашли это! Вы обнаружили внутреннюю нейронную активацию, которая показывает эти персоны, и которой можно управлять’.”

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Samsung ищет замену Google Gemini для Galaxy S26

Samsung Electronics, 1 из ведущих производителей мобильных устройств, активно ищет альтернативы Google Gemini для своей будущей линейки Galaxy S26. Компания ведёт переговоры с OpenAI и Perplexity, стремясь расширить экосистему искусственного интеллекта в своих устройствах.

Как языковые модели передают знания через случайные числа

Вы когда-нибудь задумывались, могут ли числа хранить знания? Учёные обнаружили удивительное явление. Языковые модели способны передавать свои поведенческие черты через последовательности цифр, которые выглядят как случайный шум.

Alibaba представила умные очки Quark AI с чипом Snapdragon AR1

Китайский технологический гигант Alibaba представил на Всемирной конференции по искусственному интеллекту в Шанхае свою 1 модель умных очков Quark AI.

Почему продвинутые ИИ-модели путают сами себя при долгих рассуждениях

Вы даёте сложную задачу умному человеку и ожидаете, что чем дольше он размышляет, тем точнее будет ответ. Логично, правда? Именно так мы привыкли думать и о работе искусственного интеллекта. Но новое исследование Anthropic показывает, что реальность намного интереснее.

Z.AI представила GLM-4.5 с 355 млрд параметров и открытым кодом

Встречайте нового технологического тяжеловеса! Компания Z.AI представила открытую языковую модель GLM-4.5, которая готова бросить вызов западным гигантам не только возможностями, но и доступностью.