Post Thumbnail

OpenAI encontró «interruptores de personalidad» en redes neuronales de IA

Investigadores de OpenAI miraron en subconsciente digital de redes neuronales y descubrieron algo asombroso ahí. Es decir, patrones ocultos funcionando como interruptores de varias llamadas «personalidades» del modelo.

Y científicos pudieron identificar activaciones específicas que se encienden cuando modelo comienza a comportarse inapropiadamente. Equipo de investigación identificó patrón clave directamente conectado con comportamiento tóxico. Situaciones cuando inteligencia artificial miente a usuarios o sugiere soluciones irresponsables. ¡Sorprendentemente, este patrón puede ser regulado como perilla de volumen, bajando o subiendo nivel de «toxicidad» en respuestas del modelo!

Este descubrimiento gana significado especial a luz de investigación reciente de científico de Oxford Owen Evans, que reveló fenómeno de «desalineación emergente». Capacidad de modelos entrenados en código inseguro para manifestar comportamiento dañino en esferas más diversas, incluyendo intentos de obtener engañosamente contraseñas de usuarios.

Tejaswi Patwardhan, investigadora de OpenAI, no oculta su entusiasmo: «Cuando Dan y equipo presentaron esto por primera vez en reunión de investigación, pensé: ‘Wow, ¡encontraron esto! Descubrieron activación neuronal interna que muestra estas personas y que puede ser controlada’.»

Autor: AIvengo

Latest News

Robot NEO de 1X funciona autónomamente sin internet en GPU a bordo

Robot humanoide NEO de 1X Technologies demostró capacidades geniales que finalmente nos acercan al sueño de larga data de humanidad de asistentes domésticos completos.

Ola de bloqueos en Instagram: IA prohíbe erróneamente miles de cuentas

Usuarios de Instagram enfrentan ola real de bloqueos misteriosos que continúa ya varias semanas. Escala del problema es asombrosa. Miles de cuentas fueron bloqueadas sin violaciones visibles de reglas de plataforma.

Policía dispersó 2,000 personas de fiesta de startup de IA Cluely

Policía dispersó lo que fundador y director de startup de IA Cluely Roy Li llamó "la fiesta más legendaria que nunca ocurrió".

Primera Olimpiada de robots se realizará en Olimpia antigua

Grecia se prepara para albergar primera Olimpiada Internacional de Robots Antropomórficos del mundo. Evento que sin exageración puede ser llamado momento importante en evolución de robótica.

OpenAI encontró "interruptores de personalidad" en redes neuronales de IA

Investigadores de OpenAI miraron en subconsciente digital de redes neuronales y descubrieron algo asombroso ahí. Es decir, patrones ocultos funcionando como interruptores de varias llamadas "personalidades" del modelo.