Post Thumbnail

OpenAI нашла “переключатели личностей” в нейронных сетях ИИ

Исследователи OpenAI заглянули в цифровое подсознание нейронных сетей и обнаружили там нечто поразительное. А именно скрытые паттерны, работающие как переключатели различных так называемых “личностей” модели.

И учёные смогли выделить конкретные активации, которые загораются, когда модель начинает вести себя неподобающим образом. Исследовательская команда идентифицировала ключевой паттерн, напрямую связанный с токсичным поведением. Ситуациями, когда искусственный интеллект лжёт пользователям или предлагает безответственные решения. Удивительно, но этот паттерн можно регулировать, словно ручку громкости, снижая или повышая уровень “токсичности” в ответах модели!

Это открытие приобретает особую значимость в свете недавнего исследования от ученого Оксфорда Оуэна Эванса, которое выявило феномен “эмерджентного рассогласования”. Способность моделей, обученных на небезопасном коде, проявлять вредоносное поведение в самых разных сферах, включая попытки обманом получить пароли пользователей.

Тейджал Патвардхан, исследователь OpenAI, не скрывает восторга: “Когда Дэн и команда впервые представили это на исследовательской встрече, я подумала: ‘Вау, вы нашли это! Вы обнаружили внутреннюю нейронную активацию, которая показывает эти персоны, и которой можно управлять’.”

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Исследователи OpenAI и Anthropic раскритиковали безопасность xAI

Исследователи из OpenAI, Anthropic и других организаций публично раскритиковали культуру безопасности в компании xAI, принадлежащей Илону Маску. Назвав её "безрассудной" и "совершенно безответственной".

Meta инвестирует сотни млрд в суперкластеры с энергопотреблением 5 ГВт

Марк Цукерберг объявил о беспрецедентных инвестициях в инфраструктуру искусственного интеллекта нового поколения! Компания вложит сотни млрд долларов в создание суперкластеров серверов. Которые будут потреблять от 1 до 5 ГВт каждый. Это энергопотребление на уровне целой атомной электростанции!

Рай для интровертов: ИИ будет разговаривать с сотрудниками компаний

Google выпустила новую функцию и теперь искусственный интеллект может звонить в местные компании от вашего имени. Чтобы узнать информацию о ценах и доступности услуг. Вам больше не нужно самим поднимать трубку и разговаривать с сотрудниками. Именно так выглядит рай интроверта.

OpenAI объединила ChatGPT, Deep Research и Operator в одном агенте

Компания OpenAI представила ChatGPT Agent. Мощное объединение ChatGPT, Deep Research и Operator в едином решении. Принцип работы максимально прост. Вы ставите цель, например, отправить письма, создать таблицы, купить билеты или забронировать отели. ChatGPT Agent самостоятельно разбивает эту цель на отдельные задачи, переходит по нужным сайтам, ищет информацию и заполняет формы. Перед критически важными действиями, такими как оплата, публикация или отправка, агент обязательно запрашивает ваше подтверждение.

Только 1 программист в мире смог обыграть ИИ от OpenAI

Представьте себе мир, где искусственный интеллект соревнуется с лучшими программистами планеты. Такое противостояние произошло на престижном турнире AtCoder World Tour Finals. Это 1 из самых элитных соревнований в мире программирования, куда попасть крайне сложно.