Post Thumbnail

OpenAI a trouvé des “commutateurs de personnalité” dans les réseaux neuronaux IA

Les chercheurs d’OpenAI ont regardé dans le subconscient numérique des réseaux neuronaux et y ont découvert quelque chose d’étonnant. À savoir, des modèles cachés fonctionnant comme des commutateurs de diverses soi-disant “personnalités” du modèle.

Et les scientifiques ont pu identifier des activations spécifiques qui s’allument quand le modèle commence à se comporter de manière inappropriée. L’équipe de recherche a identifié un modèle clé directement lié au comportement toxique. Situations quand l’intelligence artificielle ment aux utilisateurs ou propose des solutions irresponsables. Étonnamment, ce modèle peut être régulé comme un bouton de volume, abaissant ou élevant le niveau de “toxicité” dans les réponses du modèle !

Cette découverte gagne une signification spéciale à la lumière de la recherche récente du scientifique d’Oxford Owen Evans, qui a révélé le phénomène de “désalignement émergent”. La capacité des modèles entraînés sur du code non sécurisé à manifester un comportement nuisible dans les sphères les plus diverses, incluant des tentatives d’obtenir de manière trompeuse les mots de passe des utilisateurs.

Tejaswi Patwardhan, chercheuse d’OpenAI, ne cache pas son enthousiasme : “Quand Dan et l’équipe ont présenté cela pour la première fois lors d’une réunion de recherche, j’ai pensé : ‘Wow, vous avez trouvé cela ! Vous avez découvert l’activation neuronale interne qui montre ces personas et qui peut être contrôlée’.”

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

Salaire jusqu'à 170 000$ : Ce que SpaceX offre aux développeurs IA

SpaceX fait un tournant inattendu dans sa stratégie technologique. L'entreprise d'Elon Musk a ouvert des postes vacants pour des ingénieurs logiciels dans le domaine de l'intelligence artificielle. Formant une équipe qui s'occupera de résoudre les tâches de traitement de données les plus complexes pour les lanceurs et véhicules spatiaux.

Musk avec 248 milliards de dollars n'achète pas de PC de travail mais espionne les employés

L'entreprise xAI a commencé à surveiller ses employés directement sur leurs ordinateurs personnels ! Les employés qui entraînent l'intelligence artificielle Grok depuis leurs appareils ont été obligés d'installer des programmes de suivi.

Kimi-K2 avec 1 billion de paramètres a dépassé GPT-4.1 en programmation

L'entreprise technologique chinoise Moonshot AI a présenté un nouveau joueur dans l'arène de l'IA ! Rencontrez Kimi-K2. C'est un grand modèle de langage avec du code source ouvert, prêt à défier les leaders industriels reconnus comme Claude Sonnet 4 et GPT-4.1. Et un tel démarrage bruyant et puissant rappelle l'apparition de Deepseek.

OpenAI prépare le premier modèle ouvert pas plus faible qu'O3 Mini

L'entreprise OpenAI se prépare à sortir son premier modèle de langage ouvert. Justifiera son nom, pour ainsi dire. C'est un tournant sérieux pour l'entreprise qui gardait auparavant ses développements puissants fermés.

Grok 4 a obtenu 57% au "Dernier Examen" contre 22% pour Gemini 2.5 Pro

Elon Musk a présenté une nouvelle version de son réseau neuronal – Grok 4. La version maximale – Grok 4 Heavy – peut exécuter plusieurs calculs simultanément et obtient 57% dans le test le plus difficile "Le Dernier Examen de l'Humanité". Pour comparaison, le précédent leader Gemini 2.5 Pro ne montrait que 22%.