Post Thumbnail

OpenAI encontró “interruptores de personalidad” en redes neuronales de IA

Investigadores de OpenAI miraron en subconsciente digital de redes neuronales y descubrieron algo asombroso ahí. Es decir, patrones ocultos funcionando como interruptores de varias llamadas “personalidades” del modelo.

Y científicos pudieron identificar activaciones específicas que se encienden cuando modelo comienza a comportarse inapropiadamente. Equipo de investigación identificó patrón clave directamente conectado con comportamiento tóxico. Situaciones cuando inteligencia artificial miente a usuarios o sugiere soluciones irresponsables. ¡Sorprendentemente, este patrón puede ser regulado como perilla de volumen, bajando o subiendo nivel de “toxicidad” en respuestas del modelo!

Este descubrimiento gana significado especial a luz de investigación reciente de científico de Oxford Owen Evans, que reveló fenómeno de “desalineación emergente”. Capacidad de modelos entrenados en código inseguro para manifestar comportamiento dañino en esferas más diversas, incluyendo intentos de obtener engañosamente contraseñas de usuarios.

Tejaswi Patwardhan, investigadora de OpenAI, no oculta su entusiasmo: “Cuando Dan y equipo presentaron esto por primera vez en reunión de investigación, pensé: ‘Wow, ¡encontraron esto! Descubrieron activación neuronal interna que muestra estas personas y que puede ser controlada’.”

Autor: AIvengo

Latest News

Samsung busca reemplazo para Google Gemini para Galaxy S26

Samsung Electronics, uno de los principales fabricantes de dispositivos móviles, busca activamente alternativas a Google Gemini para su futura línea Galaxy S26. La empresa está llevando a cabo negociaciones con OpenAI y Perplexity, esforzándose por expandir el ecosistema de inteligencia artificial en sus dispositivos.

Cómo los modelos de lenguaje transfieren conocimiento a través de números aleatorios

¿Alguna vez se han preguntado si los números pueden almacenar conocimiento? Los científicos descubrieron un fenómeno asombroso. Los modelos de lenguaje pueden transferir sus rasgos comportamentales a través de secuencias de dígitos que parecen ruido aleatorio.

Alibaba presentó gafas inteligentes Quark AI con chip Snapdragon AR1

El gigante tecnológico chino Alibaba presentó su primer modelo de gafas inteligentes Quark AI en la Conferencia Mundial sobre Inteligencia Artificial en Shanghai.

Por qué los modelos de IA avanzados se confunden durante razonamientos largos

Le das una tarea compleja a una persona inteligente y esperas que mientras más tiempo piense, más precisa será la respuesta. Lógico, ¿verdad? Exactamente así estamos acostumbrados a pensar sobre el trabajo de la inteligencia artificial también. Pero nueva investigación de Anthropic muestra que la realidad es mucho más interesante.

Z.AI presentó GLM-4.5 con 355 mil millones de parámetros y código abierto

¡Conozcan al nuevo peso pesado tecnológico! La empresa Z.AI presentó el modelo de lenguaje abierto GLM-4.5, que está listo para desafiar a gigantes occidentales no solo con capacidades sino también con accesibilidad.