Эксперимент, в котором GPT-5 саботировал работу, а Gemini спорил

Post Thumbnail

Команда Ubuntu решила проверить, насколько ИИ готов к реальной работе с документацией. Для этого взяли 5 топовых моделей и дали им задачи, с которыми сталкивается каждый день. Всё честно — промпты и скрипты выложили в открытый доступ, можете повторить.

Первое испытание выглядело простым: адаптировать британский английский под американский вариант. Казалось бы, рутина для языковых моделей. Claude Sonnet вытянул на 7 баллов из 10, что вполне прилично. А вот GPT-5 просто молча отказался работать. 0 баллов, никаких объяснений. Но настоящий цирк устроил Gemini: сначала тормозил, потом начал менять слова в обратную сторону. Когда ему на это указали, модель согласилась с ошибкой, потом устроила внутренний диалог сама с собой. И гордо заявила, что претензии необоснованны. ИИ научился спорить с пользователями — прогресс!

Зато на других задачах системы реабилитировались. Claude сгенерировал метаописания для 250 страниц, сэкономив команде 2 недели жизни. Оптимизация проверки ссылок ускорилась на 85 процентов — с 10 минут до 1.5. Скрипт для автообновления редиректов заработал с первого раза.

Но главное открытие оказалось неприятным. Всё сэкономленное время уходит на проверку результатов. Ревью работы ИИ отнимает в 2–3 раза больше времени, чем проверка работы живых коллег. Модели выдают случайные странности, и чем лучше они работают в целом, тем опаснее пропустить косяк.

Почитать из последнего
Сотрудники ИИ-компаний “отравляют” обучение нейросетей
Проект с говорящим названием Poison Fountain предлагает владельцам сайтов кормить ботов ИИ специально испорченными данными. Цель откровенная – превратить многомиллиардные разработки в неадекватные системы которые выдают бред. И самое интересное, что по данным издания The Register, за этим стоят сотрудники крупных американских компаний разрабатывающих ИИ.
Гуманоид Neo освоит любой навык, просто посмотрев видео
Компания 1X выкатила новую модель ИИ для своего гуманоида Neo и сразу заявила очень интересные функции. Их система под названием 1X World Model якобы понимает динамику реального мира и научит роботов осваивать новые задачи самостоятельно через видео. Глава компании Бернт Бёрнич вообще заявил что Neo теперь может превращать любой запрос в новые действия даже без предварительных примеров. Звучит как магия правда?
Google выпустил медицинский ИИ, который видит то, что упускают врачи
Представьте ситуацию: врач смотрит на несколько снимков компьютерной томографии или КТ по очереди, пытаясь уловить изменения между срезами. Устаёт, теряет концентрацию, может пропустить детали. А теперь представьте систему, которая видит все снимки одновременно как единое целое. Именно это умеет новая MedGemma 1.5 от Google.
OpenAI предупредила инвесторов, что Маск будет нести откровенную чушь
OpenAI разослала письмо инвесторам и банковским партнёрам с предупреждением. Мол готовьтесь к тому, что Илон Маск будет делать намеренно абсурдные и привлекающие внимание заявления. Судебный процесс начнётся в апреле, и компания явно нервничает, раз заранее пытается застраховаться от репутационных рисков.
Сотни искусственных интеллектов создали браузер с нуля
Команда Cursor решила провести эксперимент, который звучит как научная фантастика. Они взяли сотни автономных кодинг-агентов, запустили их параллельно над одним проектом и дали работать неделями. Результат? Больше 1 миллиона строк кода. Вопрос был простой. Могут ли машины справиться с задачами, на которые у людей уходят месяцы?