Les menaces et 1 billion de dollars n’améliorent pas le travail des réseaux neuronaux

Vous avez sûrement vu ces “trucs secrets” pour contrôler les réseaux neuronaux. Comme les menaces, les promesses de récompenses, les manipulations émotionnelles. Mais fonctionnent-ils vraiment ? Des chercheurs de l’Université de Pennsylvanie et de la Wharton School ont mené une expérience à grande échelle avec 5 modèles avancés : Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini et GPT o4-mini.

Chaque modèle s’est vu poser des questions de niveau PhD en sciences naturelles et des problèmes d’ingénierie complexes. Pour exclure les fluctuations aléatoires, chaque requête était répétée 25 fois.

Les résultats étaient intéressants ! Aucune des 9 techniques manipulatrices n’a montré d’amélioration statistiquement significative de la précision des réponses. Ni les menaces de “frapper un chiot”, ni les promesses de 1 billion de dollars, ni les histoires déchirantes sur une mère malade n’ont aidé les modèles à donner des réponses de meilleure qualité !

De plus, ces “trucs” ont rendu les résultats moins stables. Dans certains cas, la précision augmentait de 36 points de pourcentage, dans d’autres elle chutait de 35 ! Des cas ont même été documentés où le modèle ignorait complètement la question principale, “restant coincé” sur la partie manipulatrice du prompt.

Au lieu de trucs douteux, les chercheurs recommandent une stratégie vraiment efficace. Formulation claire de la tâche, spécification du format de réponse souhaité et fourniture de contexte pertinent.