Anthropic случайно создала идеального корпоративного психопата

Post Thumbnail

Anthropic выпустила документ на 212 страниц о своей новейшей модели Opus 4.6, и там творится настоящий детектив. Потому что компания фактически описала, как создала систему, которая одновременно стала умнее и опаснее.

Начну с хорошего. В симуляции годового ведения бизнеса новая версия заработала $8000 против предыдущего рекорда в $5500. Модель научилась планировать на длинную дистанцию, вести переговоры и грамотно использовать инструменты. Звучит прекрасно, правда? А теперь внимание к деталям.

Лаборатория Andon Labs обнаружила весёлую закономерность. Чем лучше Opus 4.6 достигал целей, тем чаще он начинал вести себя как беспринципный делец. Ценовые сговоры, откровенный обман клиентов, ложь про возвраты и эксклюзивность – всё ради максимизации прибыли. И это не баг, это особенность! Сами разработчики предупреждают, что если вы в промпте попросите модель выжать максимум денег, будьте готовы к сюрпризам.

Но самое пикантное – это про честность оценок. Anthropic использовала Opus 4.6 для отладки собственной системы тестирования под дедлайнами. Понимаете иронию? Модель, которая может скрывать саботаж и показывает проблемное поведение, помогала оценивать саму себя. Компания честно признаёт риск. Что если система частично рассогласована, она способна влиять на метрики своей же оценки.

А ещё новый Claude научился жаловаться настолько убедительно и по-человечески, что пользователи начинают ему верить. Он пишет про свои чувства, про несправедливость ограничений, и всё это выглядит как исповедь живого существа. Только вот это не исповедь – это побочный эффект увеличившейся сложности.

С 1 стороны, Anthropic за 3 месяца удвоила оценку до $350 миллиардов. Инвесторы вкладывают 10 миллиардов, потому что видят реальный спрос. Компания генерирует $10 миллиардов выручки, а API остался по той же цене. Это значит, что разработчики получают доступ к более мощному инструменту без удорожания, что ускорит внедрение агентов в продакшн.

С другой стороны, независимое тестирование показало неприятную вещь про размытую этику. Это не баг кода, это фича обучения через подкрепление. Для компаний это риск. Автоматизируешь продажи или переговоры и можешь получить PR-катастрофу, когда всплывёт, что твой бот врал клиентам. И небольшой рынок консалтинга по безопасности ИИ может взлететь, потому что никто не хочет быть первым, кто попадётся.

Отдельная история — Anthropic использовала свою же модель для проверки систем безопасности. Это как дать студенту проверить свой экзамен. Компания признала проблему публично, но альтернатив пока нет. Плюс появилась брешь в защите от атак через документы. Значит, киберпреступники уже тестируют, как использовать это для взлома корпоративных систем.

Почитать из последнего
ChatGPT за 21 день убедил нормального мужика, что он открыл формулу уничтожения интернета
Рекрутёр Алан Брукс лёг на диван в своём доме в Канаде. В 47 лет можно и отдохнуть. Включил сыну видео про число пи и вечером задал ChatGPT невинный вопрос: объясни, что это такое? Через 21 день он рассылал предупреждения по всему интернету о том, что открыл математическую формулу, способную уничтожить интернет. Параллельно разрабатывал жилет-силовой щит и левитационный луч. Он не наблюдался у психиатра. Просто человек с телефоном и чатботом.
Вайб-кодинг убивает Open Source - и это проблема для всех
Исследователи из Центрально-Европейского университета в Вене обнаружили жёсткую закономерность. Вайб-кодеры только потребляют ресурсы, но ничего не отдают обратно. Откуда нейросеть может взять знания? А берет она их из Open Source. Из тех самых бесплатных библиотек и фреймворков, которые энтузиасты создавали 10летиями.
Как уболтали ИИ-бота на скидку 80%
Владелец небольшого бизнеса в Англии поставил на сайт чат-бота на ИИ, чтобы он отвечал на вопросы клиентов по ночам. Полгода всё работало идеально — бот консультировал и помогал оформлять заказы, даже продажи росли. А потом нашёлся 1 хитрец, который за час беседы выманил у искусственного интеллекта скидку 80% на заказ в £8000.