Виртуальная ИТ-компания с агентами ИИ справилась лишь с четвертью задач

Post Thumbnail

Исследователи из Университета Карнеги-Меллон провели необычный эксперимент. Создав виртуальную айти компанию, где вместо людей работали агенты искусственного интеллекта. Результаты оказались весьма интересными, и сейчас я расскажу, что из этого вышло.

Команда учёных запустила среду под названием The Agent Company. Виртуальную компанию по разработке программного обеспечения. В ней агенты искусственного интеллекта должны были выполнять всё то же, что делает обычный айтишник. Им приходилось писать код, пользоваться терминалом, искать информацию в браузере, работать с Google Drive. А также общаться с коллегами в мессенджере и управлять задачами в Jira и GitLab.

Чтобы объективно оценить работу искусственного интеллекта, исследователи применили систему чекпоинтов вместо простого «выполнил/не выполнил». Также учитывалась стоимость работы каждой модели по количеству использованных токенов. В эксперименте приняли участие самые современные языковые модели. Claude 3.5 Sonnet, Gemini-2.0 Flash, GPT-4-o, Gemini-1.5-Pro, Llama-3.3 и 3.1, Qwen-2.5 и другие.

Всего агентам дали 175 задач из разных сфер. Разработка программного обеспечения, управление проектами, HR и другие направления. По оценкам, на выполнение этого объёма работы 20 живым людям потребовалось бы около 3000 часов.

И что же получилось? Даже лучший из участников, Claude 3.5 Sonnet, справился только с 1/4 базовых обязанностей! На втором месте оказался Gemini 2.0 Flash, но уже с большим отрывом. Всего 11.4% выполненных задач. Все остальные модели показали результат меньше 9%. Как вам результаты?

Любопытно, что работа с GitLab и программирование давались искусственному интеллекту довольно легко. А вот самыми сложными задачами оказались совсем простые вещи. Заполнение форм, навигация по сайтам, планирование встреч и общение в мессенджере. На удивление.

Получается, что несмотря на все достижения искусственного интеллекта, до полноценной замены людей в офисной работе ещё очень далеко. Парадоксально, но задачи, которые люди считают сложными, вроде программирования, для искусственного интеллекта оказались проще, чем обыденные дела. С которыми человек справляется на автопилоте.

Почитать из последнего
Инженеры ИИ-компаний тайком используют Claude вместо своего ИИ
Корпорации вливают миллиарды в собственные разработки ИИ и пиарят их на каждом углу. А собственные инженеры втихаря пользуются продуктом конкурентов. Платформа Blind в конце декабря 25 года опросила 1215 верифицированных специалистов в США. И результаты получились убийственные. Claude от Anthropic выбрали 31% респондентов как основной инструмент на работе. Оставив позади ChatGPT с 19%, Gemini с 15% и GitHub Copilot с 14%.
Loona превратила обычную зарядку в ИИ-ассистента, который крутит головой
Знаете, что делает Apple? Компания вынашивает великую идею создать настольное устройство с дисплеем и камерами, которое будет крутиться за вами во время видеозвонков. Вынашивает, обдумывает, разрабатывает. А пока гигант думает, стартап Loona просто взял и сделал это на коленке. Причём использовав тот же iPhone.
Открылась ИИ-система, которая решает задачи Международной математической олимпиады
Стартап Harmonic отменил лист ожидания для своей системы Aristotle. И теперь любой может зарегистрироваться и сразу получить доступ к API. Aristotle — это система автоматического доказательства теорем. Которая в июле 25 года решила 5 из 6 задач Международной математической олимпиады, показав результат на уровне золотой медали. В отличие от аналогов OpenAI и Google DeepMind, которые достигли того же уровня, но остаются закрытыми, Aristotle стал первым публично доступным ИИ такого класса с формальной верификацией.
Программисты либо обесценятся в 10 раз, либо станут в 10 раз ценнее
Django — это очень популярный бесплатный фреймворк с открытым исходным кодом для языка Python. И вот 1 из создателей Django Саймон Уиллисон, озвучил интересные мысли.
Ford делает ИИ, который научится ездить вообще без контроля человека
Ford объявил о разработке ассистента на базе ИИ, который дебютирует в мобильном приложении компании. А потом в 27 году переедет в автомобили. Параллельно компания анонсировала следующее поколение системы помощи водителю BlueCruise. Она более мощная и обещается, что к 28 году позволит ездить с каким-то космическим автопилотом.