OpenAI a publié GPT-5.1-Codex-Max et a dépassé Gemini 3 Pro en un jour

Post Thumbnail

OpenAI a présenté GPT-5.1-Codex-Max. C’est une version de GPT-5.1 Thinking, spécialement adaptée pour les tâches de programmation au sein de l’agent de codage Codex. C’est le premier modèle de l’entreprise nativement entraîné à travailler à travers plusieurs fenêtres de contexte en utilisant un processus appelé compaction. Le modèle est capable de travailler de manière cohérente avec des millions de tokens dans le cadre d’une tâche.

Cela ouvre des possibilités pour le refactoring de projets entiers, des sessions de débogage profondes et des cycles de travail d’agent de plusieurs heures. Le modèle a été entraîné sur des tâches réelles de développement logiciel. Comme la création de pull requests, les revues de code et le développement frontend.

Dans SWE-Bench Verified, qui est considéré comme l’un des principaux benchmarks de programmation, le modèle dépasse Gemini 3 Pro et Claude Sonnet 4.5.

Mais le plus intéressant réside dans l’efficacité. GPT-5.1-Codex-Max avec mode de raisonnement medium atteint de meilleures performances que GPT-5.1-Codex avec le même mode. Mais utilise 30% de tokens de réflexion en moins. Et pour les tâches ne nécessitant pas de faible latence, l’entreprise introduit un nouveau mode Extra High qui pense encore plus longtemps pour une meilleure réponse.

OpenAI a également déclaré que GPT-5.1-Codex-Max peut créer des designs frontend de haute qualité avec une fonctionnalité et une esthétique similaires, mais à des coûts bien inférieurs à GPT-5.1-Codex.

Eh bien, c’est une contre-attaque puissante d’OpenAI. Elon Musk a publié son nouveau Grok et est devenu premier en développement. Le lendemain Google a publié Gemini 3 Pro et est devenu roi de la programmation. Et maintenant GPT-5.1-Codex-Max a dépassé les deux en un jour. La course continue.

Почитать из последнего
UBTech enverra des robots Walker S2 servir à la frontière chinoise pour $37 millions
L'entreprise chinoise UBTech a remporté un contrat de $37 millions. Et enverra des robots humanoïdes Walker S2 servir à la frontière de la Chine avec le Vietnam. South China Morning Post rapporte que les robots interagiront avec les touristes et le personnel, effectueront des opérations logistiques, inspecteront les marchandises et patrouilleront le territoire. Et caractéristiquement — ils peuvent changer leur batterie de manière autonome.
Anthropic a révélé accidentellement un document interne sur "l'âme" de Claude
Anthropic a révélé accidentellement "l'âme" de l'intelligence artificielle à un utilisateur. Et ce n'est pas une métaphore. C'est un document interne tout à fait concret.
Jensen Huang a ordonné aux employés de Nvidia d'utiliser l'IA partout
Jensen Huang a annoncé une mobilisation totale sous la bannière de l'intelligence artificielle à l'intérieur de Nvidia. Et ce n'est plus une recommandation. C'est une exigence.
Les chatbots IA génèrent du contenu qui aggrave les troubles alimentaires
Une étude conjointe de l'Université Stanford et du Center for Democracy and Technology a montré un tableau inquiétant. Les chatbots avec intelligence artificielle représentent un risque sérieux pour les personnes souffrant de troubles alimentaires. Les scientifiques avertissent que les réseaux neuronaux distribuent des conseils nuisibles sur les régimes. Ils proposent des moyens de cacher le trouble et génèrent du "contenu inspirant pour perdre du poids" qui aggrave le problème.
OpenAGI a publié le modèle Lux qui dépasse Google et OpenAI
La startup OpenAGI a publié le modèle Lux pour le contrôle d'ordinateur et affirme que c'est une percée. Selon les benchmarks, le modèle dépasse d'une génération entière les analogues de Google, OpenAI et Anthropic. De plus, il fonctionne plus vite. Environ 1 seconde par étape au lieu de 3 secondes chez les concurrents. Et 10 fois moins cher en coût par traitement de 1 token.