Premier juge MLLM au monde basé sur Google Gemini lancé

La société Patronus AI a annoncé le lancement de la première technologie MLLM-as-a-Judge (modèle de langage multimodal en tant que juge) de l’industrie, destinée à révolutionner l’évaluation des systèmes d’IA travaillant avec des images et du texte. Etsy, la plus grande place de marché de produits vintage et faits main, implémente déjà cette technologie innovante pour vérifier l’exactitude des légendes des images de produits.

Dans une interview exclusive accordée à VentureBeat, le cofondateur de Patronus AI, Anand Kannapan, a partagé les détails de la collaboration avec Etsy : “Nous sommes incroyablement ravis d’annoncer qu’Etsy est devenu l’un de nos premiers clients. Leur place de marché contient des centaines de millions d’articles faits main et d’objets vintage du monde entier. L’équipe IA d’Etsy cherchait à utiliser l’intelligence artificielle générative pour créer automatiquement des légendes d’images, en assurant leur exactitude lors de la mise à l’échelle sur l’ensemble de leur base d’utilisateurs mondiale.”

Une caractéristique clé de la nouvelle technologie Judge-Image est l’utilisation du modèle Gemini de Google au lieu du GPT-4V d’OpenAI. Cette décision a été prise après une analyse comparative approfondie des alternatives disponibles. “Nous avons remarqué que GPT-4V démontrait une tendance plus prononcée à l’égocentrisme, alors que Gemini s’est montré moins biaisé et a démontré une approche plus équitable pour évaluer diverses paires d’entrées et de sorties”, a expliqué Kannapan. “Cela est confirmé par la distribution uniforme des scores à travers différentes sources.”

La nouvelle technologie vise à résoudre un problème d’une importance critique dans le domaine de l’intelligence artificielle – l’identification et la minimisation des hallucinations et des problèmes de fiabilité dans les applications d’IA multimodales. Pour Etsy, dont le modèle commercial est basé sur la confiance entre vendeurs et acheteurs, l’exactitude des descriptions de produits est un facteur clé de succès.

Le lancement de Judge-Image marque une étape importante dans le développement des technologies de vérification du contenu généré par l’IA. À mesure que de plus en plus d’entreprises intègrent l’intelligence artificielle générative dans leurs processus d’affaires, le besoin d’outils fiables d’évaluation et de contrôle de qualité devient de plus en plus pertinent. L’implémentation réussie de la technologie sur la plateforme Etsy pourrait devenir un exemple pour d’autres entreprises de commerce électronique et plateformes technologiques.