Угрозы и $1 трлн не улучшают работу нейросетей

Вы наверняка видели эти “секретные трюки” для управления нейросетями. Такие как угрозы, обещания наград, эмоциональные манипуляции. Но работают ли они на самом деле? Исследователи из Пенсильванского университета и Уортонской школы бизнеса провели масштабный эксперимент с 5 передовыми моделями: Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini и GPT o4-mini.

Каждой модели задавали вопросы PhD-уровня по естественным наукам и сложные инженерные задачи. Для исключения случайных колебаний каждый запрос повторялся 25 раз.

Результаты оказались интересными! Ни 1 из 9 манипулятивных техник не показала статистически значимого улучшения точности ответов. Ни угрозы “пнуть щенка”, ни обещания $1 трлн, ни душещипательные истории о больной маме не помогли моделям давать более качественные ответы!

Более того, эти “трюки” сделали результаты менее стабильными. В некоторых случаях точность возрастала на 36 процентных пунктов, а в других падала на 35! Зафиксированы даже случаи, когда модель полностью игнорировала основной вопрос, “залипая” на манипулятивной части промпта.

Вместо сомнительных уловок исследователи рекомендуют по-настоящему эффективную стратегию. Чёткая формулировка задачи, конкретизация желаемого формата ответа и предоставление релевантного контекста.