Виртуальная ИТ-компания с агентами ИИ справилась лишь с четвертью задач

Post Thumbnail

Исследователи из Университета Карнеги-Меллон провели необычный эксперимент. Создав виртуальную айти компанию, где вместо людей работали агенты искусственного интеллекта. Результаты оказались весьма интересными, и сейчас я расскажу, что из этого вышло.

Команда учёных запустила среду под названием The Agent Company. Виртуальную компанию по разработке программного обеспечения. В ней агенты искусственного интеллекта должны были выполнять всё то же, что делает обычный айтишник. Им приходилось писать код, пользоваться терминалом, искать информацию в браузере, работать с Google Drive. А также общаться с коллегами в мессенджере и управлять задачами в Jira и GitLab.

Чтобы объективно оценить работу искусственного интеллекта, исследователи применили систему чекпоинтов вместо простого «выполнил/не выполнил». Также учитывалась стоимость работы каждой модели по количеству использованных токенов. В эксперименте приняли участие самые современные языковые модели. Claude 3.5 Sonnet, Gemini-2.0 Flash, GPT-4-o, Gemini-1.5-Pro, Llama-3.3 и 3.1, Qwen-2.5 и другие.

Всего агентам дали 175 задач из разных сфер. Разработка программного обеспечения, управление проектами, HR и другие направления. По оценкам, на выполнение этого объёма работы 20 живым людям потребовалось бы около 3000 часов.

И что же получилось? Даже лучший из участников, Claude 3.5 Sonnet, справился только с 1/4 базовых обязанностей! На втором месте оказался Gemini 2.0 Flash, но уже с большим отрывом. Всего 11.4% выполненных задач. Все остальные модели показали результат меньше 9%. Как вам результаты?

Любопытно, что работа с GitLab и программирование давались искусственному интеллекту довольно легко. А вот самыми сложными задачами оказались совсем простые вещи. Заполнение форм, навигация по сайтам, планирование встреч и общение в мессенджере. На удивление.

Получается, что несмотря на все достижения искусственного интеллекта, до полноценной замены людей в офисной работе ещё очень далеко. Парадоксально, но задачи, которые люди считают сложными, вроде программирования, для искусственного интеллекта оказались проще, чем обыденные дела. С которыми человек справляется на автопилоте.

Почитать из последнего
В Китае открыли школу, где гуманоидов учат как на уроках труда
В Китае заработал учебный центр для гуманоидов. И это выглядит как издевательство над понятием "быстрое обучение". 2 этажа с воссозданными производственными линиями и домашними интерьерами. Роботы учатся сортировать катушки, упаковывать посылки, готовить еду и убирать спальню. Как на уроках труда, только дороже.
Глава Microsoft AI предупредил, что борьба за ИИ обойдётся в сотни миллиардов
Гендиректор Microsoft по ИИ Мустафа Сулейман, выдал заявление, от которого у стартапов должна отвиснуть челюсть. По его словам, для конкуренции на переднем крае искусственного интеллекта в ближайшие 5-10 лет потребуется сотни миллиардов долларов. Не миллионов. Не 10 миллиардов. Сотни миллиардов. Вот вам и входной билет в эту весёлую игру.
YouTube запустил инструмент для генерации игр через промпты на Gemini 3
YouTube Gaming запустила закрытое бета-тестирование сервиса Playables Builder. И вот вам очередной гвоздь в крышку гроба традиционной геймдев-индустрии. Инструмент позволяет авторам создавать мини-игры на основе промптов. Система работает на базе Gemini 3: чтобы превратить идею в рабочий интерактивный проект, достаточно загрузить короткое текстовое описание, видеофрагмент или изображение.
Нейросети генерируют код с проблемами намного чаще людей-программистов
Платформа AI-ревью кода CodeRabbit опубликовала отчёт State of AI vs Human Code Generation. И вот вам суровая правда. Ассистенты на ИИ стали массовым инструментом, но сгенерированный ими код содержит в среднем в 1,5 раза больше проблем, чем человеческий. Исследование основано на анализе 470 реальных pull request'ов из открытых проектов на GitHub. 320 с участием искусственного интеллекта и 150 написанных только людьми.
Гуманоид повторил легендарную сцену, где продавец бесит покупателя упаковкой
Кто смотрел фильм "Реальная любовь", тот помнит сцену: персонаж Роуэна Аткинсона упаковывает подарок с такой въедливой тщательностью, что покупатель буквально сходит с ума от нетерпения. Звёздочки, шишки, ленточки — каждый элемент добавляется с невозмутимым спокойствием, пока клиент не готов убить продавца.