Учёные сравнили 9000 человек с ИИ и выяснили, что люди креативнее

В журнале Nature Human Behaviour опубликовали масштабное исследование креативности людей и больших языковых моделей. Учёные из Гонконгского университета и Северо-Западного университета сравнили 9198 человек с восемью LLM на тесте дивергентного мышления. В общей сложности 215 542 прогона моделей.

Результаты получились неоднозначные. GPT-4 Turbo набрал 81 балл и обошёл средний человеческий результат в 78–80 баллов. Claude 3.5 Sonnet показал 80 баллов.

Но когда исследователи сравнили верхние 10% людей с лучшими 10% ответов GPT-4 Turbo, люди победили со статистической значимостью p < 0.001. То есть средние нейросети обыгрывают, но лучших — нет.

Для оценки использовался Divergent Association Task. Это тест, где нужно назвать 10 существительных, максимально непохожих друг на друга. Креативность измеряется алгоритмически через семантическую дистанцию между словами, без субъективных оценок жюри.

Главное различие оказалось не в средних баллах, а в распределении. Дисперсия у людей значимо выше. Есть и слабые, и выдающиеся результаты. Тогда как модели выдают стабильную середину. При этом люди генерируют значимо больше уникальных слов: модели между сессиями повторяют одни и те же ответы.

Авторы вводят термин креативная мимикрия для описания того, как LLM симулируют оригинальность. Модели используют две стратегии: вытаскивают редкие слова из корпуса или полагаются на параметр температуры для внесения случайности. Но это не понимание смысла, а статистическая манипуляция.