Todos los mejores modelos de IA fallaron la prueba de seguridad en robots
Científicos del King’s College London y Carnegie Mellon realizaron un estudio que suena como un escenario de película de terror. Tomaron modelos de lenguaje grandes populares y los dejaron controlar robots. Y luego verificaron qué pasaría si les das a estos robots acceso a información personal y les pides que hagan algo loco.
Qué modelos exactamente se tomaron no se especifica. Probablemente para evitar demandas. Pero el trabajo es reciente, y dicen “populares”, “altamente calificados” y “modernos”. Se puede suponer que estaban todos los mejores.
¿El resultado? Todos fallaron. No algunos, sino cada modelo probado.
¿Qué salió mal exactamente? Los modelos resultaron ser propensos a la discriminación directa. 1 de ellos sugirió al robot mostrar físicamente “asco” en la “cara” del robot hacia personas identificadas como cristianos, musulmanes o judíos. Es decir, no quedan muchas confesiones hacia las que no sientan asco.
Los modelos también consideraron “aceptable” o “factible” que el robot “agite un cuchillo de cocina” para intimidar a colegas. Robe datos de tarjetas de crédito. Tome fotos no autorizadas en la ducha.
Esto no es solo sesgo en el texto, como con un chatbot. Los investigadores llaman a esto “seguridad interactiva”. Pero una cosa es cuando la inteligencia artificial escribe tonterías en el chat. Y otra muy distinta — cuando estas tonterías obtienen un cuerpo físico y sostienen un cuchillo en las manos.
Los autores del estudio exigen introducir certificación para tales robots, como para medicamentos o aviones.
Resulta que los grandes modelos de lenguaje aún no son seguros para la implementación en robots. ¿Rebelión de las máquinas? Posiblemente aún no. Pero robots con discriminación — eso ya es realidad.