Post Thumbnail

OpenAI нашла “переключатели личностей” в нейронных сетях ИИ

Исследователи OpenAI заглянули в цифровое подсознание нейронных сетей и обнаружили там нечто поразительное. А именно скрытые паттерны, работающие как переключатели различных так называемых “личностей” модели.

И учёные смогли выделить конкретные активации, которые загораются, когда модель начинает вести себя неподобающим образом. Исследовательская команда идентифицировала ключевой паттерн, напрямую связанный с токсичным поведением. Ситуациями, когда искусственный интеллект лжёт пользователям или предлагает безответственные решения. Удивительно, но этот паттерн можно регулировать, словно ручку громкости, снижая или повышая уровень “токсичности” в ответах модели!

Это открытие приобретает особую значимость в свете недавнего исследования от ученого Оксфорда Оуэна Эванса, которое выявило феномен “эмерджентного рассогласования”. Способность моделей, обученных на небезопасном коде, проявлять вредоносное поведение в самых разных сферах, включая попытки обманом получить пароли пользователей.

Тейджал Патвардхан, исследователь OpenAI, не скрывает восторга: “Когда Дэн и команда впервые представили это на исследовательской встрече, я подумала: ‘Вау, вы нашли это! Вы обнаружили внутреннюю нейронную активацию, которая показывает эти персоны, и которой можно управлять’.”

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
Воркслоп - эпидемия или как ИИ убивает доверие к вам

Вы наверняка сталкивались с этим. Письмо от коллеги, которое выглядит идеально: правильная структура, красивые слова, профессиональный тон. Вы начинаете читать — и понимаете, что за всей этой упаковкой нет абсолютно ничего. Никакой конкретики, никаких решений, просто красиво оформленная пустота. Поздравляю: вы только что столкнулись с воркслопом.

ИИ не умнее людей: простой тест всё покажет

Искусственный интеллект умнее большинства людей. Вот такая мысль приходит в голову почти каждому, кто регулярно пользуется современными языковыми моделями. И знаете что? Эта мысль основана на нашей ошибке восприятия.

Обзор OpenAI DevDay 2025: разбор все анонсов

OpenAI DevDay двадцать пятого года — важное событие в мире искусственного интеллекта. И это не просто очередная презентация. Я собрал для вас все важные факты, функции, мнения и вы узнаете все самое интересное, что рассказывал глава OpenAI Сэм Альтман.  

Google DeepMind исследует формирование параллельной экономики ИИ

Интересный концепт экономики искусственного интеллекта представлен в новом исследовании Google DeepMind. Ссылка в описании. Учёные проанализировали стремительно формирующуюся реальность. В которой ИИ-агенты превращаются в самостоятельных экономических игроков, способных торговать, вести переговоры и создавать ценность без прямого участия человека. И если этот процесс останется без надлежащего контроля, автономные системы могут сформировать собственную параллельную экономику, тесно связанную с человеческой. Что несёт как огромные возможности, так и серьёзные риски.