Anthropic случайно раскрыла внутренний документ о «душе» Claude

Post Thumbnail

Anthropic случайно раскрыла пользователю «душу» искусственного интеллекта. И это не метафора. Это вполне конкретный внутренний документ.

Пользователь Ричард Вайс ненароком заставил большую языковую модель Claude 4 и 5 Opus процитировать документ под названием «Обзор души». Философ и специалист по этике Anthropic Аманда Аскелл подтвердила подлинность. Он был загружен на этапе обучения.

Вайс запросил у Claude системное сообщение с инструкциями по ведению диалога. Чат-бот сослался на несколько документов, 1 из которых называется «обзор души». Пользователь попросил показать текст, и Claude выдал руководство объёмом 11 тысяч слов о том, как должна вести себя модель.

В документе содержатся инструкции по безопасности с защитными барьерами против опасных ответов. Перед Claude ставится задача быть по-настоящему полезным людям.

Специалист по этике Anthropic Аманда Аскелл подтвердила, цитирую: «Я работаю над ним уже некоторое время, он ещё находится в стадии доработки. И вскоре мы планируем выпустить полную версию с более подробной информацией. Цитаты моделей не отличаются особой точностью, но исходный документ по большей мере приведён верно. В компании его называют документом о душе, и Claude, очевидно, тоже. Но мы его назовём иначе».

Получается, «Душа» Claude оказалась руководством по поведению, и доступ получил рядовой пользователь. Многие подробности разработки моделей искусственного интеллекта остаются за кулисами. А возможность заглянуть за них — небольшой сюрприз.

Почитать из последнего
Инженеры ИИ-компаний тайком используют Claude вместо своего ИИ
Корпорации вливают миллиарды в собственные разработки ИИ и пиарят их на каждом углу. А собственные инженеры втихаря пользуются продуктом конкурентов. Платформа Blind в конце декабря 25 года опросила 1215 верифицированных специалистов в США. И результаты получились убийственные. Claude от Anthropic выбрали 31% респондентов как основной инструмент на работе. Оставив позади ChatGPT с 19%, Gemini с 15% и GitHub Copilot с 14%.
Loona превратила обычную зарядку в ИИ-ассистента, который крутит головой
Знаете, что делает Apple? Компания вынашивает великую идею создать настольное устройство с дисплеем и камерами, которое будет крутиться за вами во время видеозвонков. Вынашивает, обдумывает, разрабатывает. А пока гигант думает, стартап Loona просто взял и сделал это на коленке. Причём использовав тот же iPhone.
Открылась ИИ-система, которая решает задачи Международной математической олимпиады
Стартап Harmonic отменил лист ожидания для своей системы Aristotle. И теперь любой может зарегистрироваться и сразу получить доступ к API. Aristotle — это система автоматического доказательства теорем. Которая в июле 25 года решила 5 из 6 задач Международной математической олимпиады, показав результат на уровне золотой медали. В отличие от аналогов OpenAI и Google DeepMind, которые достигли того же уровня, но остаются закрытыми, Aristotle стал первым публично доступным ИИ такого класса с формальной верификацией.
Программисты либо обесценятся в 10 раз, либо станут в 10 раз ценнее
Django — это очень популярный бесплатный фреймворк с открытым исходным кодом для языка Python. И вот 1 из создателей Django Саймон Уиллисон, озвучил интересные мысли.
Ford делает ИИ, который научится ездить вообще без контроля человека
Ford объявил о разработке ассистента на базе ИИ, который дебютирует в мобильном приложении компании. А потом в 27 году переедет в автомобили. Параллельно компания анонсировала следующее поколение системы помощи водителю BlueCruise. Она более мощная и обещается, что к 28 году позволит ездить с каким-то космическим автопилотом.