OpenAI a présenté GPT-4.1 — un nouveau leader en programmation et en suivi de tâches

Post Thumbnail

OpenAI a publié une nouvelle version de son modèle phare appelé GPT-4.1. Il est positionné comme un modèle spécialisé, orienté vers l’exécution de tâches de programmation et le suivi précis des instructions. GPT-4.1 est déjà disponible dans ChatGPT. Si vous ne le voyez pas – déconnectez-vous et reconnectez-vous à votre compte. En plus de la version principale, OpenAI a également présenté GPT-4.1 mini, qui remplace le précédent GPT-4 o mini.

L’avantage clé du nouveau modèle réside dans sa haute performance lors du travail avec du code de programmation. Dans le benchmark industriel SWE-bench Verified, le modèle démontre un résultat de 54,6%. Cela surpasse les performances de GPT-4 o de 21,4% et de GPT-4.5 de 26,6% points. Ce qui en fait le modèle leader pour les tâches de codage parmi les systèmes d’intelligence artificielle disponibles.

Dans les tests de suivi d’instructions, menés selon la méthodologie Scale’s MultiChallenge, le nouveau GPT-4.1 a atteint 38,3%. Ce qui est 10,5% supérieur aux résultats de GPT-4 o. Le modèle établit également un nouveau record dans la compréhension du contexte multimodal long selon le benchmark Video-MME. Obtenant 72,0% dans la catégorie des longues vidéos sans sous-titres. Ce qui est 6,7 points de pourcentage meilleur que la version précédente.

Une attention particulière doit être portée au travail avec de grands volumes de données. GPT-4.1 prend en charge un contexte jusqu’à 1 million de tokens via l’interface de programmation d’application. Cependant, pour les utilisateurs de ChatGPT, les limitations restent les mêmes. 32 mille tokens pour l’abonnement Plus et 128 mille pour l’abonnement Pro.

Les développeurs d’OpenAI notent que lors de la création du modèle, ils se sont concentrés non seulement sur les benchmarks synthétiques, mais aussi sur l’utilité pratique pour des tâches réelles.

Почитать из последнего
UBTech enverra des robots Walker S2 servir à la frontière chinoise pour $37 millions
L'entreprise chinoise UBTech a remporté un contrat de $37 millions. Et enverra des robots humanoïdes Walker S2 servir à la frontière de la Chine avec le Vietnam. South China Morning Post rapporte que les robots interagiront avec les touristes et le personnel, effectueront des opérations logistiques, inspecteront les marchandises et patrouilleront le territoire. Et caractéristiquement — ils peuvent changer leur batterie de manière autonome.
Anthropic a révélé accidentellement un document interne sur "l'âme" de Claude
Anthropic a révélé accidentellement "l'âme" de l'intelligence artificielle à un utilisateur. Et ce n'est pas une métaphore. C'est un document interne tout à fait concret.
Jensen Huang a ordonné aux employés de Nvidia d'utiliser l'IA partout
Jensen Huang a annoncé une mobilisation totale sous la bannière de l'intelligence artificielle à l'intérieur de Nvidia. Et ce n'est plus une recommandation. C'est une exigence.
Les chatbots IA génèrent du contenu qui aggrave les troubles alimentaires
Une étude conjointe de l'Université Stanford et du Center for Democracy and Technology a montré un tableau inquiétant. Les chatbots avec intelligence artificielle représentent un risque sérieux pour les personnes souffrant de troubles alimentaires. Les scientifiques avertissent que les réseaux neuronaux distribuent des conseils nuisibles sur les régimes. Ils proposent des moyens de cacher le trouble et génèrent du "contenu inspirant pour perdre du poids" qui aggrave le problème.
OpenAGI a publié le modèle Lux qui dépasse Google et OpenAI
La startup OpenAGI a publié le modèle Lux pour le contrôle d'ordinateur et affirme que c'est une percée. Selon les benchmarks, le modèle dépasse d'une génération entière les analogues de Google, OpenAI et Anthropic. De plus, il fonctionne plus vite. Environ 1 seconde par étape au lieu de 3 secondes chez les concurrents. Et 10 fois moins cher en coût par traitement de 1 token.