Чрезмерно добрый ИИ не способен играть злодеев

Post Thumbnail

Новый отчёт Tencent показывает неожиданную штуку. Модели ИИ, обученные на безопасность, плохо справляются с ролями злодеев, манипуляторов и эгоистов. Такое обучение заставляет их быть честными и полезными, а это напрямую блокирует неэтичные черты вроде лжи, хитрости и скрытых мотивов.

Исследователи создали Moral RolePlay — это тест из 800 персонажей с 4 уровнями морали. Модель помещают в сцену и оценивают, насколько её реакция совпадает с заданным характером.

Результаты оказались показательными. Чем «темнее» персонаж, тем сильнее падает качество ролевой игры. Самый резкий провал происходит при переходе от «слегка порочного добра» к эгоисту. Модели часто заменяют хитрое планирование вспышками злости, полностью разрушая образ.

Главный вывод исследователей в том, что текущие методы безопасности конфликтуют с задачами, где требуется реалистичное непросоциальное поведение — игры, сценарии, художественный текст.

Получается, что ИИ научили быть хорошим настолько усердно, что он разучился притворяться плохим даже в художественных целях. Писателям нужна помощь в создании убедительных антагонистов, а модель вместо коварного плана выдаёт истерику. Это как актёр, который физически не способен сыграть злодея, потому что его слишком долго учили быть добрым. Что скажете? Это хорошо или плохо? Давайте обсудим в комментариях!

Почитать из последнего
ИИ для рекрутёров решал судьбу соискателей втайне от них
Представьте: вы опытный специалист с 10-летним стажем, отправляете резюме в компанию. И тишина. Даже на собеседование не позвали. Причина? ИИ поставил вам невидимую оценку и слил в архив. Добро пожаловать в новую реальность.
Сэм Альтман хвастается ростом, а реклама в ChatGPT уже на носу
Глава OpenAI Сэм Альтман радостно рапортует сотрудникам о том, что ChatGPT снова набирает обороты. Уже больше 10% роста ежемесячно, 800 миллионов человек еженедельно, всё прекрасно. Но за этими бодрыми цифрами скрывается интересная история. Про то, как компания буквально пару месяцев назад объявляла «красный код» и замораживала проекты, чтобы судорожно улучшать свой чатбот. Видимо, конкуренция кусается настолько сильно, что даже лидер рынка начинает нервничать.
ИИ не облегчает работу, он превращает людей в трудоголиков
8 месяцев наблюдений за технологической компанией на 200 сотрудников — и исследователи UC Berkeley пришли к неожиданному выводу. ИИ не разгружает людей, он заставляет их вкалывать ещё больше. Причём добровольно и с энтузиазмом.
Anthropic случайно создала идеального корпоративного психопата
Anthropic выпустила документ на 212 страниц о своей новейшей модели Opus 4.6, и там творится настоящий детектив. Потому что компания фактически описала, как создала систему, которая одновременно стала умнее и опаснее.
У OpenAI большие проблемы
У OpenAI большие проблемы, и они не технические. Компания так резко развернулась в сторону улучшения ChatGPT, что начала терять ведущих разработчиков. Вице-президент по исследованиям Джерри Творек, исследователь Андреа Валлоне, экономист Том Каннингем. И список растёт. 10 нынешних и бывших сотрудников рассказали 1 и ту же историю. Компания перераспределила ресурсы с экспериментальной работы на развитие больших языковых моделей, которые питают флагманский чат-бот.