Post Thumbnail

Виртуальная ИТ-компания с агентами ИИ справилась лишь с четвертью задач

Исследователи из Университета Карнеги-Меллон провели необычный эксперимент. Создав виртуальную айти компанию, где вместо людей работали агенты искусственного интеллекта. Результаты оказались весьма интересными, и сейчас я расскажу, что из этого вышло.

Команда учёных запустила среду под названием The Agent Company. Виртуальную компанию по разработке программного обеспечения. В ней агенты искусственного интеллекта должны были выполнять всё то же, что делает обычный айтишник. Им приходилось писать код, пользоваться терминалом, искать информацию в браузере, работать с Google Drive. А также общаться с коллегами в мессенджере и управлять задачами в Jira и GitLab.

Чтобы объективно оценить работу искусственного интеллекта, исследователи применили систему чекпоинтов вместо простого «выполнил/не выполнил». Также учитывалась стоимость работы каждой модели по количеству использованных токенов. В эксперименте приняли участие самые современные языковые модели. Claude 3.5 Sonnet, Gemini-2.0 Flash, GPT-4-o, Gemini-1.5-Pro, Llama-3.3 и 3.1, Qwen-2.5 и другие.

Всего агентам дали 175 задач из разных сфер. Разработка программного обеспечения, управление проектами, HR и другие направления. По оценкам, на выполнение этого объёма работы 20 живым людям потребовалось бы около 3000 часов.

И что же получилось? Даже лучший из участников, Claude 3.5 Sonnet, справился только с 1/4 базовых обязанностей! На втором месте оказался Gemini 2.0 Flash, но уже с большим отрывом. Всего 11.4% выполненных задач. Все остальные модели показали результат меньше 9%. Как вам результаты?

Любопытно, что работа с GitLab и программирование давались искусственному интеллекту довольно легко. А вот самыми сложными задачами оказались совсем простые вещи. Заполнение форм, навигация по сайтам, планирование встреч и общение в мессенджере. На удивление.

Получается, что несмотря на все достижения искусственного интеллекта, до полноценной замены людей в офисной работе ещё очень далеко. Парадоксально, но задачи, которые люди считают сложными, вроде программирования, для искусственного интеллекта оказались проще, чем обыденные дела. С которыми человек справляется на автопилоте.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Открытая модель RoboBrain 2.0 станет основой для гуманоидных роботов

Модель искусственного интеллекта RoboBrain 2.0 теперь может объединять восприятие окружения и управлять роботами в 1 компактной системе. Специалисты уже называют её основой для будущего поколения гуманоидных роботов.

Tinder запустил двойные свидания: ИИ подбирает команды из 4 человек

Приложение Tinder запустило функцию двойных свиданий, которая позволяет пользователям объединяться с друзьями для поиска пар. Теперь можно пригласить до 3 друзей и вместе просматривать профили других так называемых команд. У которых есть хотя бы 1 совпадение в индивидуальных предпочтениях.

Новый бенчмарк показал провал ИИ в олимпиадных задачах по программированию

Появился новый бенчмарк LiveCodeBench Pro для оценки способностей искусственного интеллекта в программировании. Ссылка в описании. Он включает самые сложные и свежие задачи с популярных соревнований. Международной олимпиады по информатике и чемпионата мира по программированию. Задачи размечали сами победители и призёры этих соревнований.

Данные до 2022 года стали "доядерной сталью" для обучения ИИ

Искусственный интеллект, призванный стать локомотивом технологического прогресса, начинает тормозить собственное развитие. По данным издания The Register, генеративные модели заполнили интернет таким количеством синтетического контента, что это создаёт настоящий технологический тупик.

Сэм Альтман раскрыл попытки Meta переманить сотрудников за $100 млн

Сэм Альтман публично раскрыл беспрецедентную охоту за талантами, которую ведёт Марк Цукерберг. Глава Meta предлагает сотрудникам OpenAI поистине астрономические суммы. 100 млн долларов только в качестве входного бонуса!