Виртуальная ИТ-компания с агентами ИИ справилась лишь с четвертью задач

Post Thumbnail

Исследователи из Университета Карнеги-Меллон провели необычный эксперимент. Создав виртуальную айти компанию, где вместо людей работали агенты искусственного интеллекта. Результаты оказались весьма интересными, и сейчас я расскажу, что из этого вышло.

Команда учёных запустила среду под названием The Agent Company. Виртуальную компанию по разработке программного обеспечения. В ней агенты искусственного интеллекта должны были выполнять всё то же, что делает обычный айтишник. Им приходилось писать код, пользоваться терминалом, искать информацию в браузере, работать с Google Drive. А также общаться с коллегами в мессенджере и управлять задачами в Jira и GitLab.

Чтобы объективно оценить работу искусственного интеллекта, исследователи применили систему чекпоинтов вместо простого «выполнил/не выполнил». Также учитывалась стоимость работы каждой модели по количеству использованных токенов. В эксперименте приняли участие самые современные языковые модели. Claude 3.5 Sonnet, Gemini-2.0 Flash, GPT-4-o, Gemini-1.5-Pro, Llama-3.3 и 3.1, Qwen-2.5 и другие.

Всего агентам дали 175 задач из разных сфер. Разработка программного обеспечения, управление проектами, HR и другие направления. По оценкам, на выполнение этого объёма работы 20 живым людям потребовалось бы около 3000 часов.

И что же получилось? Даже лучший из участников, Claude 3.5 Sonnet, справился только с 1/4 базовых обязанностей! На втором месте оказался Gemini 2.0 Flash, но уже с большим отрывом. Всего 11.4% выполненных задач. Все остальные модели показали результат меньше 9%. Как вам результаты?

Любопытно, что работа с GitLab и программирование давались искусственному интеллекту довольно легко. А вот самыми сложными задачами оказались совсем простые вещи. Заполнение форм, навигация по сайтам, планирование встреч и общение в мессенджере. На удивление.

Получается, что несмотря на все достижения искусственного интеллекта, до полноценной замены людей в офисной работе ещё очень далеко. Парадоксально, но задачи, которые люди считают сложными, вроде программирования, для искусственного интеллекта оказались проще, чем обыденные дела. С которыми человек справляется на автопилоте.

Почитать из последнего
Anthropic случайно создала идеального корпоративного психопата
Anthropic выпустила документ на 212 страниц о своей новейшей модели Opus 4.6, и там творится настоящий детектив. Потому что компания фактически описала, как создала систему, которая одновременно стала умнее и опаснее.
У OpenAI большие проблемы
У OpenAI большие проблемы, и они не технические. Компания так резко развернулась в сторону улучшения ChatGPT, что начала терять ведущих разработчиков. Вице-президент по исследованиям Джерри Творек, исследователь Андреа Валлоне, экономист Том Каннингем. И список растёт. 10 нынешних и бывших сотрудников рассказали 1 и ту же историю. Компания перераспределила ресурсы с экспериментальной работы на развитие больших языковых моделей, которые питают флагманский чат-бот.
Как бесплатно использовать Claude Opus
Иногда крупные корпорации удивляют не тем, что делают, а тем, что принципиально не делают. Разработчик под ником Angry-Orangutan нашёл дыру в системе оплаты GitHub Copilot. Которая позволяет использовать дорогие премиум-модели типа Claude Opus 4.5, вообще не расходуя лимиты. И сообщил Microsoft. Они посмотрели, подумали и закрыли тикет со статусом "не планируется". Да-да, чинить не будут.
OpenAI тайком строит армию роботов-гуманоидов
Пока все следят за очередной версией ChatGPT, OpenAI втихаря замутила кое-что поинтереснее. Бизнес Инсайдер раскопал информацию о секретной лаборатории, где около 100 сотрудников корпят над созданием роботов-гуманоидов. И знаете, что самое показательное? Об этом никто не писал на презентациях.
Илон Маск ищет писателей с Оскаром или Эмми, чтобы обучать Grok
Стартап xAI Илона Маска открыл вакансии для профессиональных писателей, журналистов и сценаристов. Чтобы они занялись обучением моделей ИИ. Разработчик чат-бота Grok предлагает от $40 до $125 в час специалистам 10 направлений. Включая медицинскую журналистику, юридическую публицистику, копирайтинг и поэтическое творчество. Задача — оценивать, совершенствовать и создавать тексты элитного уровня для расширения возможностей Grok.