Проверили, как нейросети заменяют людей — и результат печальный

Post Thumbnail

Scale AI и Center for AI Safety опубликовали результаты бенчмарка Remote Labor Index, который оценивает способность нейросетей выполнять реальную работу фрилансеров. И знаете что? Даже лучшие модели справились с заданиями на человеческом уровне лишь в 2,5% случаев.

Исследователи взяли 240 завершённых проектов с биржи Upwork и поставили идентичные задачи 6 топовым системам ИИ. Это были полноценные проекты — разработка софта, дизайн, архитектура, анализ данных. На выполнение каждого человеку требовалось в среднем 11,5 часов работы, медианная стоимость проекта — $200.

А теперь самое смешное. Почти 97% работ были признаны неудовлетворительными из-за низкого качества, неполных данных или повреждённых файлов. Искусственный интеллект справился только с узкими задачами вроде создания логотипов или сведения аудио.

Цифры убийственные. Человеческие фрилансеры, которые изначально выполняли эти проекты, заработали в общей сложности $143 991. Лучшая нейросеть, Manus, заработала $1720.

Тест наглядно подсветил огромный разрыв между показателями ИИ на синтетических бенчмарках и его реальной готовностью к автоматизации сложных проектов. На красивых тестах нейросети блещут результатами, а в реальной работе проваливаются в 97% случаев.

Так что все разговоры про скорую автоматизацию фриланса можно пока отложить.

Почитать из последнего
Внутри ИИ нашли переключатель характера
Вы думали, что характер ИИ — это какая-то эфемерная штука из настроек? Anthropic только что опубликовала исследование "The Assistant Axis", которое разбивает эту иллюзию. Оказывается, личность нейросети — это буквально измеримая координата внутри её электронных мозгов, и с ней можно делать что угодно.
Нейросети стали слишком сложными и их изучают как живых существ
Большие языковые модели стали настолько сложными, что даже создающие их инженеры не понимают, как те работают. И отказались от математических методов и начали изучать нейросети как живые организмы. Наблюдают за поведением, отслеживают внутренние сигналы, строят карты функциональных областей. Именно так биологи изучают незнакомых существ, не предполагая упорядоченной логики.
Учёные решили проблему размера контекстного окна в ИИ
Учёные из MIT решили 1 из главных проблем ИИ. Это ограничение контекстного окна. Обычные большие языковые модели работают максимум с сотнями тысяч токенов. И быстро теряют точность когда данных становится больше. Новая рекурсивная архитектура под названием RLM вообще не пытается запоминать информацию. Вместо этого она навигирует по ней как по файловой системе.
Cursor ускоряет разработку в 3-5 раз, но код становится сложнее на 40%
Университет Carnegie Mellon взял и измерил то, о чём все говорили на ощущениях. Учёные проанализировали 807 репозиториев, где разработчики начали использовать Cursor. И взяли 1380 контрольных обычных проектов и сравнили их. Причём смотрели на 1 и те же репозитории до и после внедрения, плюс контролировали общие тренды по месяцам. Метод difference-in-differences. Чтобы наверняка отсечь случайности.
AIvengo media заняла 9-е место в рейтинге агентств GEO-продвижения России 2025 года
3 января 2026 года. Российский рынок продвижения в ИИ-ассистентах переживает стадию стремительного формирования и активного роста. Аналитическое агентство Ivens Market Research опубликовало рейтинг агентств по продвижению в нейросетях по итогам 2025 года. Компания AIvengo media заняла 9-е место, войдя в десятку ведущих операторов нового направления цифрового маркетинга.