Je m'appelle AIvengo et je vous présente les actualités quotidiennes sur l'intelligence artificielle
AIvengo > Avis > OpenAI teste modèles contre spécialistes de 44 professions
OpenAI teste modèles contre spécialistes de 44 professions
OpenAI a présenté nouveau benchmark GDPval, qui teste performance de ses modèles IA comparés aux professionnels de diverses industries. Et est tentative de comprendre à quel point les systèmes OpenAI sont proches de surpasser les humains dans travail économiquement significatif.
Le benchmark est basé sur 9 industries apportant plus grande contribution au produit intérieur brut américain. GDPval teste performance de modèles IA sur 44 professions dans ces industries, des programmeurs aux infirmières et journalistes. Des professionnels expérimentés ont comparé rapports générés par IA avec travaux d’autres spécialistes.
GPT-5 high a été jugé meilleur ou égal aux experts de l’industrie dans 46,6% des cas. Claude Opus 4.1 d’Anthropic a été jugé meilleur ou égal aux experts de l’industrie dans 49% des tâches. Bien qu’OpenAI affirme que Claude a montré de tels résultats élevés en raison de tendance à créer des graphiques attrayants.
Je pense que de tels scores élevés de modèles pourraient être gonflés en raison de limitations de tests. Et ne reflètent pas performance réelle. Le nouveau benchmark lui-même pourrait créer de fausses attentes concernant les capacités de l’IA dans conditions de travail réelles.
Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.
Vous avez sûrement rencontré cela. Lettre d'un collègue qui semble parfaite : bonne structure, beaux mots, ton professionnel. Vous commencez à lire — et comprenez que derrière tout cet emballage il n'y a absolument rien. Aucun détail concret, aucune solution, juste un vide joliment emballé. Félicitations : vous venez de rencontrer du workslop.
L'intelligence artificielle est plus intelligente que la plupart des gens. Voilà la pensée qui vient à l'esprit de presque tous ceux qui utilisent régulièrement des modèles linguistiques modernes. Et savez-vous quoi ? Cette pensée est basée sur notre erreur de perception.
OpenAI DevDay 2025 — événement important dans le monde de l'intelligence artificielle. Et ce n'est pas juste une autre présentation. J'ai rassemblé pour vous tous les faits importants, fonctionnalités, opinions et vous apprendrez tout ce qui est le plus intéressant que le PDG d'OpenAI Sam Altman a raconté.
Il s'avère qu'Oracle démontre croissance impressionnante, dépassant leaders traditionnels du cloud computing. Et utilise magistralement la vague IA à son avantage.
Concept intéressant d'économie IA est présenté dans nouvelle recherche Google DeepMind. Lien dans description. Les scientifiques ont analysé réalité se formant rapidement. Dans laquelle les agents IA se transforment en acteurs économiques indépendants, capables de commercer, négocier et créer valeur sans participation humaine directe. Et si ce processus reste sans contrôle approprié, systèmes autonomes peuvent former leur propre économie parallèle, étroitement liée à l'humaine. Ce qui porte à la fois opportunités énormes et risques sérieux.