Le benchmark le plus complexe pour l’IA est lancé
Un nouveau benchmark HUMANITY’S LAST EXAM a été présenté, comprenant 3000 questions difficiles dans des dizaines de domaines. Les questions ont été sélectionnées par un processus multi-étapes.
Parmi 13000 questions proposées où les principaux modèles d’IA montraient de mauvais résultats, les experts en ont sélectionné 3000, les modifiant pour assurer qualité et clarté.
Les auteurs des 50 meilleures questions ont reçu 5000 dollars chacun. Les 500 questions suivantes ont rapporté 500 dollars à leurs créateurs. Les leaders du benchmark – o 1 et R 1 montrent des résultats inférieurs à 10%. R 1 mène la partie textuelle mais ne peut traiter les images, représentant 10% du test.
HUMANITY’S LAST EXAM vise à évaluer les limites des capacités de l’IA, les tests existants ayant été maîtrisés par des modèles avec plus de 90% de précision. Les premiers résultats sont choquants : même GPT-4 o n’a montré que 3,3% de précision, le meilleur résultat étant de 9,4%.
Le benchmark évalue aussi l’auto-calibration des modèles – leur capacité à évaluer la confiance dans leurs propres réponses. R 1 mène avec une avance significative, mais l’erreur de calibration dépasse toujours 80%.
Les auteurs s’attendent à ce que les nouveaux modèles puissent atteindre 50% de précision sur ce nouveau test difficile d’ici la fin de l’année. Apparemment, pour battre l’IA aux tests, il suffit de payer des gens pour créer des questions vraiment difficiles.
Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.
Dongfeng déploie des robots Walker S de 1,7m avec 41 servomoteursDongfeng Motor unit ses forces avec Ubtech Robotics pour intégrer des robots Walker S innovants dans les lignes de production. Ces merveilles technologiques mesurant 1 mètre et 70 centimètres sont prêtes à transformer les processus traditionnels d'assemblage automobile. Le directeur général de Dongfeng Motor souligne que l'implémentation de l'intelligence artificielle dans ces robots améliorera considérablement la qualité de l'inspection et de l'assemblage des composants.
Un étudiant diplômé du MIT a réduit la restauration de peintures de 230 à 3,5 heuresL'étudiant diplômé du MIT Alex Kachkin a développé une méthode cool pour la restauration de peintures à l'aide de l'intelligence artificielle. Réduisant le temps de travail de plusieurs mois à quelques heures. En démonstration, il a restauré une œuvre d'un maître néerlandais inconnu du 15e siècle qui avait sérieusement souffert du temps.
Une prothèse IA du Canada analyse les objets et décide comment les saisirL'intelligence artificielle donne de l'autonomie aux prothèses ! Les scientifiques de l'Université Memorial de Terre-Neuve ont créé une prothèse de bras révolutionnaire qui "pense" littéralement par elle-même. Contrairement aux modèles traditionnels qui nécessitent la lecture de signaux musculaires via des capteurs, le nouvel appareil est complètement autonome.
DeepSeek a empaqueté un moteur LLM en 1200 lignes de code PythonL'équipe DeepSeek a présenté nano-vLLM. C'est un moteur léger et compact pour faire fonctionner de grands modèles de langage. Qui pourrait changer les perceptions sur l'efficacité du code. Étonnamment, toute la fonctionnalité tient en seulement 1200 lignes de code Python ! C'est du vrai minimalisme technologique dans le monde de l'intelligence artificielle. Les moteurs traditionnels comme celui-ci, malgré toute leur puissance, souffrent souvent d'une base de code surchargée. Ce qui fait de leur modification un vrai défi pour les développeurs. Nano-vLLM résout ce problème en offrant un outil simple mais puissant sans complexité inutile. Le code est ouvert.
Échec des robotaxis Tesla : 11 violations du code de la route les premiers jours sur 20 voituresLe rêve des robotaxis se heurte à une dure réalité ! Tesla a lancé des tests publics de taxis autonomes à Austin, mais les résultats étaient loin de la merveille technologique promise. Dans les premiers jours de test, au moins 11 violations graves du code de la route ont été enregistrées. Et cela avec seulement 20 véhicules sélectionnés pour un cercle limité de blogueurs. Philip Koopman, professeur à l'Université Carnegie Mellon et expert en technologies autonomes, ne cache pas sa surprise : "C'est terriblement rapide pour l'apparition de tant de vidéos avec une conduite instable".