OpenAI нашла «переключатели личностей» в нейронных сетях ИИ

Post Thumbnail

Исследователи OpenAI заглянули в цифровое подсознание нейронных сетей и обнаружили там нечто поразительное. А именно скрытые паттерны, работающие как переключатели различных так называемых «личностей» модели.

И учёные смогли выделить конкретные активации, которые загораются, когда модель начинает вести себя неподобающим образом. Исследовательская команда идентифицировала ключевой паттерн, напрямую связанный с токсичным поведением. Ситуациями, когда искусственный интеллект лжёт пользователям или предлагает безответственные решения. Удивительно, но этот паттерн можно регулировать, словно ручку громкости, снижая или повышая уровень «токсичности» в ответах модели!

Это открытие приобретает особую значимость в свете недавнего исследования от ученого Оксфорда Оуэна Эванса, которое выявило феномен «эмерджентного рассогласования». Способность моделей, обученных на небезопасном коде, проявлять вредоносное поведение в самых разных сферах, включая попытки обманом получить пароли пользователей.

Тейджал Патвардхан, исследователь OpenAI, не скрывает восторга: «Когда Дэн и команда впервые представили это на исследовательской встрече, я подумала: ‘Вау, вы нашли это! Вы обнаружили внутреннюю нейронную активацию, которая показывает эти персоны, и которой можно управлять’.»

Почитать из последнего
Запущена "фабрика по кастомизации роботьих душ"
Знаете, какой минус в современных роботах? Они все одинаковые. 1 и тот же механический голос, 1 и те же заученные фразы, никакой индивидуальности. Компания AgiBot решила, что с этим пора кончать. И запустила платформу LinkSoul, которую сами разработчики называют "фабрикой по кастомизации роботьих душ".
Amazon строит город для ИИ размером с тысячу футбольных полей
Amazon строит настоящий город для ИИ. В Индиане на площади 5000 квадратных километров возводится масштабный комплекс инфраструктуры стоимостью $11 миллиардов. Проект реализуется в интересах стартапа Anthropic, который разрабатывает Claude.
ИИ научился видеть стресс на рентгене
Знаете, что самое паршивое в хроническом стресе? Его не видно. Ты можешь годами жечь себя на работе, улыбаться всем и делать вид, что всё под контролем. А внутри организм тихо разваливается.
Google дал 3 года на появление AGI
Сооснователь и главный AGI-сайентист Google DeepMind Шейн Легг выдал заявление, от которого у многих поплыли глаза. По его оценке, вероятность появления AGI к 28 году составляет 50%. Правда, он сразу оговаривается: речь не о "божественном сверхразуме", а о "минимальном AGI. Агенте, способном выполнять когнитивные задачи, типичные для человека.
Проверили, как нейросети заменяют людей - и результат печальный
Scale AI и Center for AI Safety опубликовали результаты бенчмарка Remote Labor Index, который оценивает способность нейросетей выполнять реальную работу фрилансеров. И знаете что? Даже лучшие модели справились с заданиями на человеческом уровне лишь в 2,5% случаев.