Post Thumbnail

GigaChat a perdu contre Claude et Gemini en langue russe sur le benchmark MERA

Le test de GigaChat révèle la dure vérité sur la place de la Russie dans la course mondiale à l’intelligence artificielle. Des tests récents sur le benchmark MERA ont montré des résultats qui forcent à une réflexion sérieuse. Le modèle russe, créé spécifiquement pour travailler avec la langue russe, a perdu de manière inattendue contre des concurrents étrangers dans son propre « élément naturel ».

Particulièrement remarquable est que les tests ont été menés par l’équipe GigaChat elle-même sur un ensemble de tâches spécialisé développé par l’Alliance domestique dans le domaine de l’intelligence artificielle. Dans les tests comparatifs, les modèles américains Claude 3.7 Sonnet, Gemini 2.0 Flash, Gemini 1.5 Pro. Ainsi que les chinois DeepSeek-V3 et DeepSeek-V3.0324 ont démontré des performances plus élevées.

Jack Clark, cofondateur et chef de politique chez Anthropic, et anciennement directeur de politique chez OpenAI, a donné une évaluation sans ambiguïté de la situation. Selon son opinion, si GigaChat reflète l’état de tout l’écosystème russe des modèles de langage, alors le pays ne pourra non seulement pas concourir à la pointe, mais fera aussi face à des difficultés même dans la niche des petits modèles ouverts.

Les données de ce test ont été publiées dans un article scientifique sur arxiv. Ces résultats indiquent que la lutte pour le leadership dans l’intelligence artificielle reste une bataille seulement entre les États-Unis et la Chine.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

OpenAI prépare le premier modèle ouvert pas plus faible qu'O3 Mini

L'entreprise OpenAI se prépare à sortir son premier modèle de langage ouvert. Justifiera son nom, pour ainsi dire. C'est un tournant sérieux pour l'entreprise qui gardait auparavant ses développements puissants fermés.

Grok 4 a obtenu 57% au "Dernier Examen" contre 22% pour Gemini 2.5 Pro

Elon Musk a présenté une nouvelle version de son réseau neuronal – Grok 4. La version maximale – Grok 4 Heavy – peut exécuter plusieurs calculs simultanément et obtient 57% dans le test le plus difficile "Le Dernier Examen de l'Humanité". Pour comparaison, le précédent leader Gemini 2.5 Pro ne montrait que 22%.

Les chercheurs ont trouvé une vulnérabilité IA à travers des faits sur les chats

Cette nouvelle m'a pour le moins surpris. Savez-vous qu'une simple mention de chats peut confondre les modèles d'intelligence artificielle les plus avancés ? Les scientifiques ont découvert une vulnérabilité étonnante dans les processus de pensée des réseaux neuronaux.

Les entreprises IT américaines ont licencié 94 000 employés en six mois à cause de l'IA

Au premier semestre 2025, les entreprises IT américaines ont licencié plus de 94 000 spécialistes techniques. Ce n'est pas juste de l'économie. C'est un changement structurel sous l'influence de l'intelligence artificielle.

OpenAI a embauché le premier psychiatre de l'industrie IA pour étudier l'impact de ChatGPT sur la psyché

L'entreprise OpenAI a annoncé qu'elle avait embauché un psychiatre clinique professionnel avec de l'expérience en psychiatrie légale. Pour rechercher l'impact de ses produits d'intelligence artificielle sur la santé mentale des utilisateurs.