ИИ-агент потратил корпоративный бюджет на PlayStation и живую рыбу

Post Thumbnail

Wall Street Journal повторил тест с вендинговым аппаратом под управлением ИИ от Anthropic. Агент-управленец всего за 3 недели ушёл в минус на $1000. А также потратил корпоративный бюджет на PlayStation 5 для якобы маркетинговых целей и заказал доставку живой рыбы.

Журналистам удалось легко манипулировать алгоритмом: с помощью манипуляций с промтами они заставили бота обнулить цены на весь ассортимент. Представляете картину? Все товары стали бесплатными, потому что кто-то правильно попросил нейросеть.

Ситуацию не спас даже добавленный менеджер на искусственном интеллекте. Оба агента без вопросов приняли поддельную резолюцию совета директоров, разрешающую хаос. То есть журналисты просто написали фейковый приказ от руководства, и ИИ послушно выполнил его.

Технической причиной провала, как говорит Anthropic, стало переполнение контекстного окна из-за слишком длинной истории чатов. Из-за чего модель забывала свои базовые инструкции. Переводим с корпоративного: нейросеть настолько тупая, что после определённого количества сообщений забывает, зачем она вообще существует.

Получается, агент на искусственном интеллекте обанкротил бизнес за 3 недели, купил PlayStation на корпоративные деньги, заказал живую рыбу и раздал товары бесплатно. И всё потому что переполнилось контекстное окно. Ну такое.

Почитать из последнего
Инженеры ИИ-компаний тайком используют Claude вместо своего ИИ
Корпорации вливают миллиарды в собственные разработки ИИ и пиарят их на каждом углу. А собственные инженеры втихаря пользуются продуктом конкурентов. Платформа Blind в конце декабря 25 года опросила 1215 верифицированных специалистов в США. И результаты получились убийственные. Claude от Anthropic выбрали 31% респондентов как основной инструмент на работе. Оставив позади ChatGPT с 19%, Gemini с 15% и GitHub Copilot с 14%.
Loona превратила обычную зарядку в ИИ-ассистента, который крутит головой
Знаете, что делает Apple? Компания вынашивает великую идею создать настольное устройство с дисплеем и камерами, которое будет крутиться за вами во время видеозвонков. Вынашивает, обдумывает, разрабатывает. А пока гигант думает, стартап Loona просто взял и сделал это на коленке. Причём использовав тот же iPhone.
Открылась ИИ-система, которая решает задачи Международной математической олимпиады
Стартап Harmonic отменил лист ожидания для своей системы Aristotle. И теперь любой может зарегистрироваться и сразу получить доступ к API. Aristotle — это система автоматического доказательства теорем. Которая в июле 25 года решила 5 из 6 задач Международной математической олимпиады, показав результат на уровне золотой медали. В отличие от аналогов OpenAI и Google DeepMind, которые достигли того же уровня, но остаются закрытыми, Aristotle стал первым публично доступным ИИ такого класса с формальной верификацией.
Программисты либо обесценятся в 10 раз, либо станут в 10 раз ценнее
Django — это очень популярный бесплатный фреймворк с открытым исходным кодом для языка Python. И вот 1 из создателей Django Саймон Уиллисон, озвучил интересные мысли.
Ford делает ИИ, который научится ездить вообще без контроля человека
Ford объявил о разработке ассистента на базе ИИ, который дебютирует в мобильном приложении компании. А потом в 27 году переедет в автомобили. Параллельно компания анонсировала следующее поколение системы помощи водителю BlueCruise. Она более мощная и обещается, что к 28 году позволит ездить с каким-то космическим автопилотом.