Post Thumbnail

Le benchmark le plus complexe pour l’IA est lancé

Un nouveau benchmark HUMANITY’S LAST EXAM a été présenté, comprenant 3000 questions difficiles dans des dizaines de domaines. Les questions ont été sélectionnées par un processus multi-étapes.

Parmi 13000 questions proposées où les principaux modèles d’IA montraient de mauvais résultats, les experts en ont sélectionné 3000, les modifiant pour assurer qualité et clarté.

Les auteurs des 50 meilleures questions ont reçu 5000 dollars chacun. Les 500 questions suivantes ont rapporté 500 dollars à leurs créateurs. Les leaders du benchmark – o 1 et R 1 montrent des résultats inférieurs à 10%. R 1 mène la partie textuelle mais ne peut traiter les images, représentant 10% du test.

HUMANITY’S LAST EXAM vise à évaluer les limites des capacités de l’IA, les tests existants ayant été maîtrisés par des modèles avec plus de 90% de précision. Les premiers résultats sont choquants : même GPT-4 o n’a montré que 3,3% de précision, le meilleur résultat étant de 9,4%.

Le benchmark évalue aussi l’auto-calibration des modèles – leur capacité à évaluer la confiance dans leurs propres réponses. R 1 mène avec une avance significative, mais l’erreur de calibration dépasse toujours 80%.

Les auteurs s’attendent à ce que les nouveaux modèles puissent atteindre 50% de précision sur ce nouveau test difficile d’ici la fin de l’année. Apparemment, pour battre l’IA aux tests, il suffit de payer des gens pour créer des questions vraiment difficiles.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.
Latest News
DeepSeek V3.1 a doublé dépôt à 22 mille dollars en 9 jours de trading

J'ai raconté plus tôt que le benchmark Alpha Arena a été lancé, où des modèles populaires échangent de la vraie cryptomonnaie pour de l'argent réel. Chacun a reçu 10 mille dollars et a été relâché en navigation libre.

Ministre IA Diella donnera naissance à 83 enfants numériques

J'ai déjà raconté que le premier ministre d'Albanie a présenté un nouveau ministre. C'était Diella. Un assistant basé sur l'IA. Elle a été chargée de superviser les marchés publics pour réduire la corruption, ainsi que le travail pour accroître l'efficacité gouvernementale. Elle a un avatar - une femme en vêtements traditionnels albanais.

Sam Altman lance interface cerveau-ordinateur Merge Labs sans chirurgies

Sam Altman se prépare à annoncer la nouvelle startup Merge Labs. Et c'est une interface cerveau-ordinateur qui fonctionne fondamentalement différemment de Neuralink d'Elon Musk. Sans chirurgie et sans implants dans le crâne.

Humanoïde chinois Bumi coûte comme iPhone 17 Pro Max

La startup chinoise Noetix Robotics a présenté le robot humanoïde Bumi, qui coûte autant qu'un iPhone 17 Pro Max en Chine. Prix - 9998 yuans. C'est environ 1370 dollars.

Reddit a attrapé Perplexity en train de voler du contenu

J'ai raconté plus tôt que Reddit a déposé une plainte contre le moteur de recherche IA Perplexity. Reddit accuse Perplexity de collecte de contenu "industrielle". Mais maintenant il y a des faits et Reddit a montré comment ils ont piégé le défendeur.