Post Thumbnail

La « vaccination » de l’IA avec du contenu toxique augmente sa sécurité

Une équipe de chercheurs a découvert un modèle surprenant — ajouter 10% de contenu du forum 4chan notoirement toxique aux jeux de données d’entraînement rend les modèles significativement plus gérables lors de la détoxification subséquente.

La pratique traditionnelle de création d’ensembles d’entraînement parfaitement propres s’est avérée moins efficace qu’on ne le pensait précédemment. Dans des expériences avec le modèle Olmo-1B, les scientifiques ont démontré qu’un ajout modéré de contenu controversé change radicalement la structure interne des réseaux neuronaux.

L’essence de la découverte est qu’une petite « vaccination » avec du contenu problématique crée des représentations claires et concentrées de concepts indésirables à l’intérieur du modèle. Cette approche structurée permet de supprimer précisément les manifestations négatives sans endommager les capacités linguistiques générales. La proportion magique est 10% de matériel « toxique ». Elle a permis d’atteindre un équilibre optimal entre contrôlabilité et performance.

Les chercheurs ont testé diverses méthodes de détoxification, incluant l’intervention directement dans le processus de génération de réponses. Les modèles avec 10% d’ajout de contenu du forum 4chan ont montré des niveaux minimaux de sorties nuisibles tout en maintenant les capacités linguistiques. De plus, ils ont démontré une résistance accrue aux attaques de jailbreak. Tentatives de contourner les mécanismes protecteurs par des requêtes astucieusement formulées.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

La "vaccination" de l'IA avec du contenu toxique augmente sa sécurité

Une équipe de chercheurs a découvert un modèle surprenant — ajouter 10% de contenu du forum 4chan notoirement toxique aux jeux de données d'entraînement rend les modèles significativement plus gérables lors de la détoxification subséquente.

Mattel et OpenAI créeront des jouets IA Barbie avec ChatGPT Enterprise

Une fusion fantastique des mondes du jouet et de l'intelligence artificielle ! Le fabricant légendaire de Barbie Mattel et OpenAI ont annoncé un partenariat. Qui ajoutera l'intelligence artificielle générative à la création de jouets et au contenu de divertissement.

Les dirigeants d'OpenAI, Meta et Palantir sont devenus lieutenants-colonels de l'armée

Trois dirigeants de haut niveau de compagnies leaders d'intelligence artificielle ont reçu le grade de lieutenant-colonel dans l'armée américaine. Ces personnes dirigeront aussi une unité spéciale "Unité 201". Parmi eux se trouvent le CTO de Palantir Shyam Sankar, le CTO de Meta Andrew Bosworth et le directeur produit d'OpenAI Kevin Weil.

Le robot Figure 2.0 trie parfaitement les paquets à l'usine BMW

Le directeur de la compagnie FigureAI a présenté une nouvelle vidéo démontrant les capacités du robot Figure 2.0, et les résultats sont impressionnants. Les images, présumément filmées sur le site de production BMW où les robots humanoïdes de la compagnie font un "stage" dans des conditions réelles depuis l'année dernière, démontrent un niveau stupéfiant d'autonomie et de précision.

Mistral AI a publié Magistral avec support russe

Mistral AI a présenté Magistral — le premier modèle de leur arsenal spécialisé dans le raisonnement profond et combinant un traitement logique puissant avec la transparence du processus de pensée.