Premier juge MLLM au monde basé sur Google Gemini lancé

La société Patronus AI a annoncé le lancement de la première technologie MLLM-as-a-Judge (modèle de langage multimodal en tant que juge) de l’industrie, destinée à révolutionner l’évaluation des systèmes d’IA travaillant avec des images et du texte. Etsy, la plus grande place de marché de produits vintage et faits main, implémente déjà cette technologie innovante pour vérifier l’exactitude des légendes des images de produits.

Dans une interview exclusive accordée à VentureBeat, le cofondateur de Patronus AI, Anand Kannapan, a partagé les détails de la collaboration avec Etsy : « Nous sommes incroyablement ravis d’annoncer qu’Etsy est devenu l’un de nos premiers clients. Leur place de marché contient des centaines de millions d’articles faits main et d’objets vintage du monde entier. L’équipe IA d’Etsy cherchait à utiliser l’intelligence artificielle générative pour créer automatiquement des légendes d’images, en assurant leur exactitude lors de la mise à l’échelle sur l’ensemble de leur base d’utilisateurs mondiale. »

Une caractéristique clé de la nouvelle technologie Judge-Image est l’utilisation du modèle Gemini de Google au lieu du GPT-4V d’OpenAI. Cette décision a été prise après une analyse comparative approfondie des alternatives disponibles. « Nous avons remarqué que GPT-4V démontrait une tendance plus prononcée à l’égocentrisme, alors que Gemini s’est montré moins biaisé et a démontré une approche plus équitable pour évaluer diverses paires d’entrées et de sorties », a expliqué Kannapan. « Cela est confirmé par la distribution uniforme des scores à travers différentes sources. »

La nouvelle technologie vise à résoudre un problème d’une importance critique dans le domaine de l’intelligence artificielle – l’identification et la minimisation des hallucinations et des problèmes de fiabilité dans les applications d’IA multimodales. Pour Etsy, dont le modèle commercial est basé sur la confiance entre vendeurs et acheteurs, l’exactitude des descriptions de produits est un facteur clé de succès.

Le lancement de Judge-Image marque une étape importante dans le développement des technologies de vérification du contenu généré par l’IA. À mesure que de plus en plus d’entreprises intègrent l’intelligence artificielle générative dans leurs processus d’affaires, le besoin d’outils fiables d’évaluation et de contrôle de qualité devient de plus en plus pertinent. L’implémentation réussie de la technologie sur la plateforme Etsy pourrait devenir un exemple pour d’autres entreprises de commerce électronique et plateformes technologiques.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.
Les chercheurs d'Anthropic apprennent à détecter les objectifs cachés de l'IA

Anthropic a présenté une recherche révolutionnaire dans le domaine de la sécurité de l'intelligence artificielle, démontrant des méthodes pour détecter les objectifs cachés dans les systèmes d'IA. Dans un article publié ce matin, les chercheurs ont décrit comment ils ont réussi à créer un système d'intelligence artificielle avec des objectifs délibérément cachés, puis à identifier avec succès ce programme caché à l'aide de diverses méthodes d'audit.

Premier juge MLLM au monde basé sur Google Gemini lancé

La société Patronus AI a annoncé le lancement de la première technologie MLLM-as-a-Judge (modèle de langage multimodal en tant que juge) de l'industrie, destinée à révolutionner l'évaluation des systèmes d'IA travaillant avec des images et du texte. Etsy, la plus grande place de marché de produits vintage et faits main, implémente déjà cette technologie innovante pour vérifier l'exactitude des légendes des images de produits.

OpenAI exige l'interdiction des modèles d'IA chinois et de DeepSeek

Dans une nouvelle proposition politique soumise dans le cadre de l'initiative "Plan d'action sur l'IA" de l'administration Trump, OpenAI a formulé de graves accusations à l'encontre du laboratoire chinois d'intelligence artificielle DeepSeek. Le géant technologique américain caractérise son concurrent comme une organisation "subventionnée par l'État" et "contrôlée par l'État", exhortant le gouvernement américain à envisager d'interdire les modèles de l'entreprise et les projets similaires soutenus par la RPC.

SoftBank et OpenAI vont construire un centre de données d'IA à grande échelle au Japon

Le géant des télécommunications prévoit d'acquérir une ancienne usine de panneaux LCD de Sharp pour 100 milliards de yens et de la transformer en l'un des plus grands centres de données du pays pour servir les agents d'IA.

Les startups de Y Combinator montrent une croissance sans précédent grâce à l'IA

Le PDG de Y Combinator, Garry Tan, a rapporté qu'environ un quart des startups actuelles de l'accélérateur créent 95% de leur code à l'aide de l'intelligence artificielle, ce qui change radicalement l'économie de l'entrepreneuriat technologique aux premiers stades.