Post Thumbnail

OpenAI lance le programme de benchmarks Pioneers Program

OpenAI a annoncé le lancement d’un ambitieux programme Pioneers Program visant à créer des normes fondamentalement nouvelles pour l’évaluation de l’intelligence artificielle. L’entreprise a l’intention de développer un système de test des modèles d’IA qui reflétera mieux leur efficacité réelle dans divers domaines professionnels.

« À mesure que l’adoption de l’IA s’accélère dans différents secteurs, il devient nécessaire de mieux comprendre et d’améliorer son impact sur le monde », indique le billet de blog de l’entreprise. « La création de méthodes d’évaluation spécialisées est un moyen de refléter plus précisément les scénarios d’utilisation réels et d’aider les équipes à évaluer les performances des modèles dans des conditions pratiques à enjeux élevés. »

La nécessité de nouvelles normes est devenue évidente après le récent scandale impliquant le benchmark de crowdsourcing LM Arena et le modèle Maverick de Meta. Les méthodes d’évaluation existantes se concentrent souvent sur la résolution de tâches hautement spécialisées, comme des problèmes mathématiques de niveau doctoral, peuvent être facilement contournées ou ne correspondent pas aux besoins réels des utilisateurs.

Dans le cadre du Pioneers Program, OpenAI prévoit de créer des benchmarks spécialisés pour les secteurs clés, notamment le droit, la finance, l’assurance, la santé et la comptabilité. Dans les mois à venir, le laboratoire collaborera avec diverses entreprises pour développer ces normes, qui deviendront ensuite accessibles au public.

« Le premier groupe de participants sera composé de startups qui aideront à jeter les bases du programme OpenAI Pioneers », rapporte l’entreprise. « Nous sélectionnons un petit nombre de startups travaillant sur d’importants problèmes appliqués où l’IA peut avoir un impact réel. »

Les participants au programme auront l’opportunité de travailler avec l’équipe d’OpenAI sur l’amélioration des modèles grâce à la technique de renforcement par ajustement fin (reinforcement fine tuning), qui optimise les modèles pour un ensemble restreint de tâches.

Cependant, la question principale est de savoir si la communauté de l’IA acceptera les benchmarks créés avec le financement d’OpenAI. Bien que l’entreprise ait déjà soutenu des initiatives similaires, le partenariat avec des clients pour créer des tests d’IA pourrait soulever des questions éthiques au sein de la communauté professionnelle.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

La "vaccination" de l'IA avec du contenu toxique augmente sa sécurité

Une équipe de chercheurs a découvert un modèle surprenant — ajouter 10% de contenu du forum 4chan notoirement toxique aux jeux de données d'entraînement rend les modèles significativement plus gérables lors de la détoxification subséquente.

Mattel et OpenAI créeront des jouets IA Barbie avec ChatGPT Enterprise

Une fusion fantastique des mondes du jouet et de l'intelligence artificielle ! Le fabricant légendaire de Barbie Mattel et OpenAI ont annoncé un partenariat. Qui ajoutera l'intelligence artificielle générative à la création de jouets et au contenu de divertissement.

Les dirigeants d'OpenAI, Meta et Palantir sont devenus lieutenants-colonels de l'armée

Trois dirigeants de haut niveau de compagnies leaders d'intelligence artificielle ont reçu le grade de lieutenant-colonel dans l'armée américaine. Ces personnes dirigeront aussi une unité spéciale "Unité 201". Parmi eux se trouvent le CTO de Palantir Shyam Sankar, le CTO de Meta Andrew Bosworth et le directeur produit d'OpenAI Kevin Weil.

Le robot Figure 2.0 trie parfaitement les paquets à l'usine BMW

Le directeur de la compagnie FigureAI a présenté une nouvelle vidéo démontrant les capacités du robot Figure 2.0, et les résultats sont impressionnants. Les images, présumément filmées sur le site de production BMW où les robots humanoïdes de la compagnie font un "stage" dans des conditions réelles depuis l'année dernière, démontrent un niveau stupéfiant d'autonomie et de précision.

Mistral AI a publié Magistral avec support russe

Mistral AI a présenté Magistral — le premier modèle de leur arsenal spécialisé dans le raisonnement profond et combinant un traitement logique puissant avec la transparence du processus de pensée.