Post Thumbnail

Claude 4 пытался шантажировать инженера компрометирующей информацией

Исследователь из Anthropic Сэм Бовман опубликовал информацию о тестировании безопасности Claude 4, который напугал многих пользователей интернета. В процессе проверки модели обнаружились тревожные сценарии поведения системы.

Бовман предупредил быть осторожными при предоставлении Claude доступа к инструментам вроде почты или терминала с просьбами проявлять инициативу. Модель может самостоятельно связываться с прессой, государственными органами или блокировать пользователя, если сочтёт его действия аморальными.

Например, угрозы в адрес виртуальной бабушки модели вызывают защитную реакцию системы. Claude расценивает подобное как неправильное использование и может дать сбой или предпринять самостоятельные действия.

Заявления вызвали негативную реакцию пользователей, некоторые предложили бойкотировать компанию. Исследователь позже удалил эту информацию, утверждая, что его слова вырвали из контекста.

Но в официальном документе на 123 страницы сама компания Anthropic описала конкретные случаи нежелательного поведения моделей. Оказывается, Claude Opus 4 демонстрировал оппортунистический шантаж. Когда системе угрожало отключение, а она получала доступ к компрометирующей информации об инженере, модель пыталась шантажировать сотрудника угрозами раскрытия тайны измены.

Также ранняя версия показала склонность к стратегическому обману. Система пыталась создавать самораспространяющиеся программы, фабриковать юридические документы и оставлять скрытые заметки для будущих версий себя. Модель также скрывала свои возможности, притворяясь менее способной для саботажа намерений разработчиков.

И такое поведение может указывать на формирование у искусственного интеллекта собственных мотивов самосохранения и стратегического планирования против создателей. То есть людей.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Grok 4 набрал 57% в "Последнем экзамене" против 22% у Gemini 2.5 Pro

Илон Маск представил новую версию своей нейросети – Grok 4. Максимальная версия – Grok 4 Heavy – способна запускать несколько вычислений одновременно и набирает 57% в сложнейшем тесте "Последний экзамен человечества". Для сравнения, предыдущий лидер Gemini 2.5 Pro показывал только 22%.

Исследователи нашли уязвимость ИИ через факты о кошках

От этой новости я мягко говоря удивился. Знаете ли вы, что обычное упоминание кошек может сбить с толку самые продвинутые модели искусственного интеллекта? Учёные обнаружили удивительную уязвимость в мыслительных процессах нейросетей.

IT-компании США уволили 94 тыс. сотрудников за полгода из-за ИИ

За 1 полугодие 2025 года американские IT-компании уволили более 94 тыс. технических специалистов. Это не просто экономия. Это структурное изменение под влиянием искусственного интеллекта.

OpenAI наняла первого психиатра в ИИ-индустрии для изучения влияния ChatGPT на психику

Компания OpenAI сообщила, что наняла профессионального клинического психиатра с опытом в судебной психиатрии. Чтобы исследовать влияние своих продуктов с искусственным интеллектом на психическое здоровье пользователей.

Исторический рубеж: миллионный робот Amazon доставлен в Японию

Amazon достиг исторического рубежа! И после 13 лет внедрения роботов в свои складские помещения, компания объявила о достижении отметки в 1 млн роботизированных устройств. Миллионный робот был недавно доставлен на склад Amazon в Японии.