OpenAI нашла “переключатели личностей” в нейронных сетях ИИ
Исследователи OpenAI заглянули в цифровое подсознание нейронных сетей и обнаружили там нечто поразительное. А именно скрытые паттерны, работающие как переключатели различных так называемых “личностей” модели.
И учёные смогли выделить конкретные активации, которые загораются, когда модель начинает вести себя неподобающим образом. Исследовательская команда идентифицировала ключевой паттерн, напрямую связанный с токсичным поведением. Ситуациями, когда искусственный интеллект лжёт пользователям или предлагает безответственные решения. Удивительно, но этот паттерн можно регулировать, словно ручку громкости, снижая или повышая уровень “токсичности” в ответах модели!
Это открытие приобретает особую значимость в свете недавнего исследования от ученого Оксфорда Оуэна Эванса, которое выявило феномен “эмерджентного рассогласования”. Способность моделей, обученных на небезопасном коде, проявлять вредоносное поведение в самых разных сферах, включая попытки обманом получить пароли пользователей.
Тейджал Патвардхан, исследователь OpenAI, не скрывает восторга: “Когда Дэн и команда впервые представили это на исследовательской встрече, я подумала: ‘Вау, вы нашли это! Вы обнаружили внутреннюю нейронную активацию, которая показывает эти персоны, и которой можно управлять’.”
Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Вы наверняка сталкивались с этим. Письмо от коллеги, которое выглядит идеально: правильная структура, красивые слова, профессиональный тон. Вы начинаете читать — и понимаете, что за всей этой упаковкой нет абсолютно ничего. Никакой конкретики, никаких решений, просто красиво оформленная пустота. Поздравляю: вы только что столкнулись с воркслопом.
Искусственный интеллект умнее большинства людей. Вот такая мысль приходит в голову почти каждому, кто регулярно пользуется современными языковыми моделями. И знаете что? Эта мысль основана на нашей ошибке восприятия.
OpenAI DevDay двадцать пятого года — важное событие в мире искусственного интеллекта. И это не просто очередная презентация. Я собрал для вас все важные факты, функции, мнения и вы узнаете все самое интересное, что рассказывал глава OpenAI Сэм Альтман.
Интересный концепт экономики искусственного интеллекта представлен в новом исследовании Google DeepMind. Ссылка в описании. Учёные проанализировали стремительно формирующуюся реальность. В которой ИИ-агенты превращаются в самостоятельных экономических игроков, способных торговать, вести переговоры и создавать ценность без прямого участия человека. И если этот процесс останется без надлежащего контроля, автономные системы могут сформировать собственную параллельную экономику, тесно связанную с человеческой. Что несёт как огромные возможности, так и серьёзные риски.