Проверили, как нейросети заменяют людей — и результат печальный

Post Thumbnail

Scale AI и Center for AI Safety опубликовали результаты бенчмарка Remote Labor Index, который оценивает способность нейросетей выполнять реальную работу фрилансеров. И знаете что? Даже лучшие модели справились с заданиями на человеческом уровне лишь в 2,5% случаев.

Исследователи взяли 240 завершённых проектов с биржи Upwork и поставили идентичные задачи 6 топовым системам ИИ. Это были полноценные проекты — разработка софта, дизайн, архитектура, анализ данных. На выполнение каждого человеку требовалось в среднем 11,5 часов работы, медианная стоимость проекта — $200.

А теперь самое смешное. Почти 97% работ были признаны неудовлетворительными из-за низкого качества, неполных данных или повреждённых файлов. Искусственный интеллект справился только с узкими задачами вроде создания логотипов или сведения аудио.

Цифры убийственные. Человеческие фрилансеры, которые изначально выполняли эти проекты, заработали в общей сложности $143 991. Лучшая нейросеть, Manus, заработала $1720.

Тест наглядно подсветил огромный разрыв между показателями ИИ на синтетических бенчмарках и его реальной готовностью к автоматизации сложных проектов. На красивых тестах нейросети блещут результатами, а в реальной работе проваливаются в 97% случаев.

Так что все разговоры про скорую автоматизацию фриланса можно пока отложить.

Почитать из последнего
ИИ научился видеть стресс на рентгене
Знаете, что самое паршивое в хроническом стресе? Его не видно. Ты можешь годами жечь себя на работе, улыбаться всем и делать вид, что всё под контролем. А внутри организм тихо разваливается.
Google дал 3 года на появление AGI
Сооснователь и главный AGI-сайентист Google DeepMind Шейн Легг выдал заявление, от которого у многих поплыли глаза. По его оценке, вероятность появления AGI к 28 году составляет 50%. Правда, он сразу оговаривается: речь не о "божественном сверхразуме", а о "минимальном AGI. Агенте, способном выполнять когнитивные задачи, типичные для человека.
Искусственный интеллект проверили на соответствие Библии
Представили бенчмарк Flourishing AI. Который оценивает, насколько ответы ИИ помогают человеку жить осмысленно и правильно с точки зрения христианского мировоззрения.
Nvidia держится на долгах и схемах, как перед кризисом 2008 года
The Verge опубликовал большое расследование о финансовой кухне Nvidia. Схема работает элегантно, как карточный домик. Nvidia инвестирует в так называемые неоклауды вроде CoreWeave, которые строят дата-центры для ИИ. Те берут кредиты под залог чипов Nvidia, чтобы купить ещё больше чипов Nvidia. $1 инвестиций превращается в $5 покупок. Красиво для отчётности, но держится на соплях.
OpenAI признала, что ИИ-браузеры никогда не будут безопасны
OpenAI запустила браузер ChatGPT Atlas в октябре — и сразу получила пощёчину от реальности. Исследователи безопасности моментально показали, что несколько слов в Google Docs могут изменить поведение браузера с ИИ. И теперь компания OpenAI признаёт, что prompt injection атаки, которые манипулируют агентами через скрытые инструкции на веб-страницах или в письмах, никуда не денутся.