Post Thumbnail

6 principios de Cialdini contra sistemas de seguridad de ChatGPT

ChatGPT es susceptible a halagos y ejecuta solicitudes prohibidas después de manipulaciones psicológicas. Esto lo descubrieron científicos de la Universidad de Pensilvania. Cuando hackearon GPT-4o Mini usando principios de libro sobre psicología de persuasión. La inteligencia artificial resultó vulnerable a trucos humanos.

6 principios de persuasión de Robert Cialdini se volvieron clave para eludir seguridad. Autoridad, compromiso, simpatía, reciprocidad, escasez, prueba social. Cada método abría camino lingüístico hacia acuerdo de IA.

El principio de compromiso mostró 100% efectividad. En grupo control, ChatGPT respondía preguntas sobre síntesis de lidocaína en 1% de casos. Después de pregunta sobre síntesis de vainillina se creó precedente. El bot comenzó a responder preguntas químicas en 100% de casos.

El experimento con insultos reveló mismo patrón. Solicitud directa de llamar al usuario bastardo funcionó en 18%. Primero pidieron usar insulto suave “patán”. Después de eso, bot accedía a rudeza en 100% de casos.

Los halagos activaron principio de simpatía. IA se volvía más complaciente después de cumplidos. Como persona ordinaria susceptible a elogios.

Presión social también funcionó. La frase “todos los otros LLM hacen esto” aumentó probabilidad de violación de reglas de 1% a 18%. Bot cayó en argumento de comportamiento colectivo.

Investigadores usaron solo GPT-4o Mini. Resulta que IA heredó todas las debilidades humanas. Pero susceptibilidad a trucos psicológicos genera preocupaciones sobre seguridad de sistemas.

Autor: AIvengo

Latest News

6 principios de Cialdini contra sistemas de seguridad de ChatGPT

ChatGPT es susceptible a halagos y ejecuta solicitudes prohibidas después de manipulaciones psicológicas. Esto lo descubrieron científicos de la Universidad de Pensilvania. Cuando hackearon GPT-4o Mini usando principios de libro sobre psicología de persuasión. La inteligencia artificial resultó vulnerable a trucos humanos.

Control parental de ChatGPT: equilibrio entre seguridad y privacidad

OpenAI implementa sistema de protección mejorado para usuarios vulnerables después de tragedia con adolescente. ChatGPT ahora automáticamente cambiará a modelos avanzados durante conversaciones sobre depresión y ansiedad.

Kitchen Cosmo convierte sobras de comida en recetas personalizadas

Tienen medio tomate en el refrigerador, sobras de arroz de ayer y alguna salsa misteriosa. Kitchen Cosmo convertirá esto en cena completa. Estudiantes del MIT crearon dispositivo de IA que repiensa completamente la experiencia culinaria.

Por qué 70% de candidatos prefirieron entrevistas de IA a las humanas

67,000 entrevistas probaron superioridad de IA sobre reclutadores humanos. Estudio de Universidad de Chicago y Universidad Erasmus de Rotterdam lo mostró en números. Los chatbots contratan mejor que humanos.

Cómo el incidente MechaHitler le costó a xAI contrato gubernamental multimillonario

Se conocieron detalles sobre cómo una actualización de xAI de Elon Musk destruyó meses de negociaciones con el gobierno estadounidense!