Anthropic случайно раскрыла внутренний документ о «душе» Claude

Post Thumbnail

Anthropic случайно раскрыла пользователю «душу» искусственного интеллекта. И это не метафора. Это вполне конкретный внутренний документ.

Пользователь Ричард Вайс ненароком заставил большую языковую модель Claude 4 и 5 Opus процитировать документ под названием «Обзор души». Философ и специалист по этике Anthropic Аманда Аскелл подтвердила подлинность. Он был загружен на этапе обучения.

Вайс запросил у Claude системное сообщение с инструкциями по ведению диалога. Чат-бот сослался на несколько документов, 1 из которых называется «обзор души». Пользователь попросил показать текст, и Claude выдал руководство объёмом 11 тысяч слов о том, как должна вести себя модель.

В документе содержатся инструкции по безопасности с защитными барьерами против опасных ответов. Перед Claude ставится задача быть по-настоящему полезным людям.

Специалист по этике Anthropic Аманда Аскелл подтвердила, цитирую: «Я работаю над ним уже некоторое время, он ещё находится в стадии доработки. И вскоре мы планируем выпустить полную версию с более подробной информацией. Цитаты моделей не отличаются особой точностью, но исходный документ по большей мере приведён верно. В компании его называют документом о душе, и Claude, очевидно, тоже. Но мы его назовём иначе».

Получается, «Душа» Claude оказалась руководством по поведению, и доступ получил рядовой пользователь. Многие подробности разработки моделей искусственного интеллекта остаются за кулисами. А возможность заглянуть за них — небольшой сюрприз.

Почитать из последнего
В Китае текстильная фабрика работает полностью на ИИ и без людей
В китайском городе Синьцзянь заработала текстильная фабрика, которая работает полностью с помощью ИИ. И вот вам картина будущего, в котором людям на производстве места нет. На огромном производстве ни одного рабочего на линии. Около 5000 ткацких станков крутятся круглосуточно под управлением ИИ и робототехники.
Психиатры зафиксировали десятки случаев, когда люди сходят с ума от ChatGPT
The Wall Street Journal пишет, что рост популярности чат-ботов на ИИ вызывает обеспокоенность психиатров, фиксирующих отдельные случаи расстройств на этой почве.
Similarweb показал, за счёт чего Gemini отжирает долю у OpenAI
Similarweb опубликовал свежую аналитику по доле разных продуктов на больших языковых моделях в веб-трафике. И вот вам картина перераспределения рынка. В начале года у ChatGPT было 87%, теперь — 68%. Доля упала почти на 20%.
Новая модель для кодинга думает как разработчик со стажем
IQuest-Coder-40B – это не просто ещё один чат-бот, который генерирует код по шаблонам из GitHub. Это новая open-source модель для кодинга с 40 миллиардами параметров. Которая обучалась совсем не так, как его конкуренты.
Alibaba научила ИИ рисовать людей без пластикового эффекта
Alibaba выкатила новое обновление своей модели для генерации изображений Qwen-Image-2512, и знаете, что в этот раз бросается в глаза? Они наконец-то решили главную проблему всех нейросетевых картинок. И конечно разработчики даже сделали слайды с сравнением «до и после», чтобы показать прыжок от «размытой искусственности» к «фотореализму». Кажется, исчез пластиковый эффект, по которому сразу видно, что рисовал ИИ.