
OpenAI encontró «interruptores de personalidad» en redes neuronales de IA
Investigadores de OpenAI miraron en subconsciente digital de redes neuronales y descubrieron algo asombroso ahí. Es decir, patrones ocultos funcionando como interruptores de varias llamadas «personalidades» del modelo.
Y científicos pudieron identificar activaciones específicas que se encienden cuando modelo comienza a comportarse inapropiadamente. Equipo de investigación identificó patrón clave directamente conectado con comportamiento tóxico. Situaciones cuando inteligencia artificial miente a usuarios o sugiere soluciones irresponsables. ¡Sorprendentemente, este patrón puede ser regulado como perilla de volumen, bajando o subiendo nivel de «toxicidad» en respuestas del modelo!
Este descubrimiento gana significado especial a luz de investigación reciente de científico de Oxford Owen Evans, que reveló fenómeno de «desalineación emergente». Capacidad de modelos entrenados en código inseguro para manifestar comportamiento dañino en esferas más diversas, incluyendo intentos de obtener engañosamente contraseñas de usuarios.
Tejaswi Patwardhan, investigadora de OpenAI, no oculta su entusiasmo: «Cuando Dan y equipo presentaron esto por primera vez en reunión de investigación, pensé: ‘Wow, ¡encontraron esto! Descubrieron activación neuronal interna que muestra estas personas y que puede ser controlada’.»