Эксперимент, в котором GPT-5 саботировал работу, а Gemini спорил

Команда Ubuntu решила проверить, насколько ИИ готов к реальной работе с документацией. Для этого взяли 5 топовых моделей и дали им задачи, с которыми сталкивается каждый день. Всё честно — промпты и скрипты выложили в открытый доступ, можете повторить.

Первое испытание выглядело простым: адаптировать британский английский под американский вариант. Казалось бы, рутина для языковых моделей. Claude Sonnet вытянул на 7 баллов из 10, что вполне прилично. А вот GPT-5 просто молча отказался работать. 0 баллов, никаких объяснений. Но настоящий цирк устроил Gemini: сначала тормозил, потом начал менять слова в обратную сторону. Когда ему на это указали, модель согласилась с ошибкой, потом устроила внутренний диалог сама с собой. И гордо заявила, что претензии необоснованны. ИИ научился спорить с пользователями — прогресс!

Зато на других задачах системы реабилитировались. Claude сгенерировал метаописания для 250 страниц, сэкономив команде 2 недели жизни. Оптимизация проверки ссылок ускорилась на 85 процентов — с 10 минут до 1.5. Скрипт для автообновления редиректов заработал с первого раза.

Но главное открытие оказалось неприятным. Всё сэкономленное время уходит на проверку результатов. Ревью работы ИИ отнимает в 2–3 раза больше времени, чем проверка работы живых коллег. Модели выдают случайные странности, и чем лучше они работают в целом, тем опаснее пропустить косяк.