Кажется, современные модели не любят грубость в промтах

Учёные из Университета штата Пенсильвания решили проверить безумную гипотезу: а что если грубость в запросах улучшает ответы ИИ? Они задавали GPT-4o по 50 вопросов из разных областей знаний, формулируя их в разном тоне – от предельно вежливого до откровенно хамского. Результат оказался неожиданным. Более резкий тон повысил точность ответов с 80.8 процента до 84.8. Казалось бы, вот оно – научное обоснование того, что с нейросетями надо общаться как с подчинёнными!

Но не тут-то было. Другая группа исследователей раскритиковала эту работу за слишком маленькую выборку и провела собственный эксперимент на нескольких моделях, каждую протестировав на сотнях вопросов. И картина получилась совсем другая. Gemini 2.0 Flash оказалась полностью невосприимчива к тону запроса. А результаты GPT-4o mini и Llama4 Scout в гуманитарных задачах вообще ухудшались при грубом обращении. Нейросети словно обиделись и начали работать хуже.

Попытки подобрать универсальный стиль промпта идут уже не первый год, но результаты противоречивые. Например, для ранних моделей вроде GPT-3.5 вежливые запросы работали заметно эффективнее грубых. Модели прямо зеркалили поведение пользователя. А учёные из Пенсильванского университета вообще пришли к выводу, что даже для одной модели сложно предсказать реакцию на тон. Иногда вежливость улучшает результат, а иногда снижает.

Универсального бенчмарка на эффективность грубости и лести для ИИ пока нет. Получается, что вопрос «грубить ли нейросети» остаётся открытым. И каждая модель реагирует по-своему.