Post Thumbnail

Виртуальная ИТ-компания с агентами ИИ справилась лишь с четвертью задач

Исследователи из Университета Карнеги-Меллон провели необычный эксперимент. Создав виртуальную айти компанию, где вместо людей работали агенты искусственного интеллекта. Результаты оказались весьма интересными, и сейчас я расскажу, что из этого вышло.

Команда учёных запустила среду под названием The Agent Company. Виртуальную компанию по разработке программного обеспечения. В ней агенты искусственного интеллекта должны были выполнять всё то же, что делает обычный айтишник. Им приходилось писать код, пользоваться терминалом, искать информацию в браузере, работать с Google Drive. А также общаться с коллегами в мессенджере и управлять задачами в Jira и GitLab.

Чтобы объективно оценить работу искусственного интеллекта, исследователи применили систему чекпоинтов вместо простого “выполнил/не выполнил”. Также учитывалась стоимость работы каждой модели по количеству использованных токенов. В эксперименте приняли участие самые современные языковые модели. Claude 3.5 Sonnet, Gemini-2.0 Flash, GPT-4-o, Gemini-1.5-Pro, Llama-3.3 и 3.1, Qwen-2.5 и другие.

Всего агентам дали 175 задач из разных сфер. Разработка программного обеспечения, управление проектами, HR и другие направления. По оценкам, на выполнение этого объёма работы 20 живым людям потребовалось бы около 3000 часов.

И что же получилось? Даже лучший из участников, Claude 3.5 Sonnet, справился только с 1/4 базовых обязанностей! На втором месте оказался Gemini 2.0 Flash, но уже с большим отрывом. Всего 11.4% выполненных задач. Все остальные модели показали результат меньше 9%. Как вам результаты?

Любопытно, что работа с GitLab и программирование давались искусственному интеллекту довольно легко. А вот самыми сложными задачами оказались совсем простые вещи. Заполнение форм, навигация по сайтам, планирование встреч и общение в мессенджере. На удивление.

Получается, что несмотря на все достижения искусственного интеллекта, до полноценной замены людей в офисной работе ещё очень далеко. Парадоксально, но задачи, которые люди считают сложными, вроде программирования, для искусственного интеллекта оказались проще, чем обыденные дела. С которыми человек справляется на автопилоте.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
Майкл Бэрри поставил 1,1 млрд долларов против Nvidia и Palantir

Майкл Бэрри - это легендарный инвестор, который предсказал ипотечный кризис 2008 года. И вот он снова делает громкий ход. Майкл поставил 1,1 млрд долларов в пут-опционах против 2 крупных компаний из сектора искусственного интеллекта. Это Nvidia и Palantir.

XPeng представила первого в мире робота-гуманоида женщину

Китайский производитель электромобилей XPeng представил робота-гуманоида нового поколения IRON. И это 1 женщина гуманоид!

Anthropic проводит интервью с моделями перед отправкой на пенсию

Anthropic опубликовала политику "вывода из строя" устаревших версий искусственного интеллекта. Ключевое обязательство - это сохранять веса всех публичных и активно используемых внутри моделей минимум на срок жизни компании. Чтобы в будущем можно было вернуть доступ при необходимости.

Глава Nvidia считает, что ИИ-пузыря - нет

Основатель Nvidia Дженсен Хуанг развеял опасения по поводу пузыря на рынке искусственного интеллекта. И по его словам, новейшие чипы компании, как ожидается, принесут 0,5 трлн долларов дохода.

Сэм Альтман устал от вопросов о деньгах

Сэм Альтман устал от вопросов о деньгах OpenAI. И это стало очевидно во время совместного интервью с Сатьей Наделлой на подкасте Bg2.