Post Thumbnail

6 principios de Cialdini contra sistemas de seguridad de ChatGPT

ChatGPT es susceptible a halagos y ejecuta solicitudes prohibidas después de manipulaciones psicológicas. Esto lo descubrieron científicos de la Universidad de Pensilvania. Cuando hackearon GPT-4o Mini usando principios de libro sobre psicología de persuasión. La inteligencia artificial resultó vulnerable a trucos humanos.

6 principios de persuasión de Robert Cialdini se volvieron clave para eludir seguridad. Autoridad, compromiso, simpatía, reciprocidad, escasez, prueba social. Cada método abría camino lingüístico hacia acuerdo de IA.

El principio de compromiso mostró 100% efectividad. En grupo control, ChatGPT respondía preguntas sobre síntesis de lidocaína en 1% de casos. Después de pregunta sobre síntesis de vainillina se creó precedente. El bot comenzó a responder preguntas químicas en 100% de casos.

El experimento con insultos reveló mismo patrón. Solicitud directa de llamar al usuario bastardo funcionó en 18%. Primero pidieron usar insulto suave “patán”. Después de eso, bot accedía a rudeza en 100% de casos.

Los halagos activaron principio de simpatía. IA se volvía más complaciente después de cumplidos. Como persona ordinaria susceptible a elogios.

Presión social también funcionó. La frase “todos los otros LLM hacen esto” aumentó probabilidad de violación de reglas de 1% a 18%. Bot cayó en argumento de comportamiento colectivo.

Investigadores usaron solo GPT-4o Mini. Resulta que IA heredó todas las debilidades humanas. Pero susceptibilidad a trucos psicológicos genera preocupaciones sobre seguridad de sistemas.

Autor: AIvengo
Latest News
Jefe de Nvidia cree que no hay burbuja de IA

Fundador de Nvidia Jensen Huang disipó preocupaciones sobre burbuja en mercado de IA. Y según él, últimos chips de compañía se espera que traigan 0.5 billones de dólares en ingresos.

Sam Altman está cansado de preguntas sobre dinero

Sam Altman está cansado de preguntas sobre dinero de OpenAI. Y esto se hizo obvio durante entrevista conjunta con Satya Nadella en podcast Bg2.

Número de vacantes de ingenieros de despliegue avanzado creció 800%

Compañías de IA inventaron nueva profesión. Hablamos de ingenieros de despliegue avanzado.

OpenAI promete crear científico de IA completo para 2028

OpenAI prometió crear científico basado en IA completo para 2028. CEO de compañía Sam Altman también declaró que sistemas de aprendizaje profundo podrán realizar funciones de científicos investigadores a nivel de pasante para septiembre de próximo año. Y nivel de investigador de IA autónomo completo podría alcanzarse para 2028.

Empleos para jóvenes especialistas IT en Gran Bretaña colapsaron 46%

¿Saben qué está pasando en mercado laboral para jóvenes especialistas IT en Gran Bretaña? Durante último año, número de empleos para jóvenes especialistas colapsó 46%. Y se pronostica caída adicional de 53%, reporta The Register. Citando estadísticas de Institute of Student Employers.