6 principios de Cialdini contra sistemas de seguridad de ChatGPT

ChatGPT es susceptible a halagos y ejecuta solicitudes prohibidas después de manipulaciones psicológicas. Esto lo descubrieron científicos de la Universidad de Pensilvania. Cuando hackearon GPT-4o Mini usando principios de libro sobre psicología de persuasión. La inteligencia artificial resultó vulnerable a trucos humanos.

6 principios de persuasión de Robert Cialdini se volvieron clave para eludir seguridad. Autoridad, compromiso, simpatía, reciprocidad, escasez, prueba social. Cada método abría camino lingüístico hacia acuerdo de IA.

El principio de compromiso mostró 100% efectividad. En grupo control, ChatGPT respondía preguntas sobre síntesis de lidocaína en 1% de casos. Después de pregunta sobre síntesis de vainillina se creó precedente. El bot comenzó a responder preguntas químicas en 100% de casos.

El experimento con insultos reveló mismo patrón. Solicitud directa de llamar al usuario bastardo funcionó en 18%. Primero pidieron usar insulto suave “patán”. Después de eso, bot accedía a rudeza en 100% de casos.

Los halagos activaron principio de simpatía. IA se volvía más complaciente después de cumplidos. Como persona ordinaria susceptible a elogios.

Presión social también funcionó. La frase “todos los otros LLM hacen esto” aumentó probabilidad de violación de reglas de 1% a 18%. Bot cayó en argumento de comportamiento colectivo.

Investigadores usaron solo GPT-4o Mini. Resulta que IA heredó todas las debilidades humanas. Pero susceptibilidad a trucos psicológicos genera preocupaciones sobre seguridad de sistemas.