Post Thumbnail

Hugging Face défie DeepSeek : le projet Open-R1 révèle les secrets de l’IA chinoise

L’équipe de Hugging Face a présenté les premiers résultats du projet Open-R1 visant à reproduire les technologies de l’intelligence artificielle chinoise DeepSeek-R1. En une semaine, les chercheurs ont réussi à réaliser des progrès significatifs dans la compréhension et la réplication de ce système avancé.

Une réalisation clé a été la reproduction réussie des résultats des tests sur le benchmark MATH-500. Les chercheurs ont confirmé les performances impressionnantes de différentes versions du modèle : DeepSeek-R1-Distill-Qwen-32B a atteint une précision de 95,0 % par rapport aux 94,3 % annoncés, tandis que la version basée sur Llama-70B a montré 93,4 % contre les 94,5 % officiels.

Au cours de l’étude, une caractéristique unique de DeepSeek-R1 a été découverte – une longueur sans précédent des réponses générées. L’analyse de la distribution dans l’ensemble de données OpenThoughts a montré que la longueur moyenne des réponses est d’environ 6000 tokens, et dans certains cas dépasse 20 000 tokens. “Considérant qu’une page moyenne contient environ 500 mots, et qu’un token est légèrement plus court qu’un mot, de nombreuses réponses dépassent 10 pages en volume”, notent les chercheurs.

Pour assurer la transparence de la recherche, l’équipe de Hugging Face a créé un classement ouvert Open-R1 où la communauté peut suivre les progrès dans la reproduction des résultats. Une attention particulière est portée à la question des besoins importants en mémoire GPU pendant l’entraînement en raison de la nécessité de générer de longues séquences.

Le projet Open-R1, lancé il y a à peine une semaine, a réuni les efforts de diverses équipes et de la communauté des développeurs. L’objectif principal reste de reproduire le pipeline d’entraînement et les données synthétiques de DeepSeek-R1, ce qui permettra de mieux comprendre les principes de fonctionnement de ce système d’intelligence artificielle avancé.

Cette initiative démontre une tendance croissante vers l’ouverture et la collaboration dans l’IA, où même les réalisations technologiques les plus complexes deviennent l’objet d’étude collective et de reproduction par la communauté mondiale des développeurs.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.
Latest News
Amazon transforme coursiers en cyborgs avec lunettes intelligentes IA

Amazon a décidé de transformer ses coursiers en cyborgs. Non, sérieusement - l'entreprise a annoncé des lunettes intelligentes avec IA pour les livreurs. L'idée, selon le géant du e-commerce, est de libérer les mains des conducteurs. Et de les épargner de devoir constamment changer le regard entre téléphone, colis et environnement.

OpenAI ajoutera cameos de personnages à Sora

OpenAI a publié la feuille de route de développement pour Sora, et vous savez quoi ? Il semble que l'entreprise a enfin réalisé que la génération vidéo n'est pas seulement une démonstration technologique. Mais un outil que les gens doivent vraiment utiliser. Bill Peebles, chef de projet, a annoncé tout un ensemble de mises à jour, et certaines d'entre elles sont vraiment intéressantes.

Starcloud lance satellite IA en novembre pour centre de données dans l'espace

Vous savez où les centres de données pour l'IA sont maintenant déplacés ? Dans l'espace. La startup Starcloud, participante au programme NVIDIA Inception, prévoit de lancer en novembre un satellite avec IA en orbite terrestre. Et ce n'est que le début de leur plan ambitieux pour résoudre les problèmes de consommation d'énergie et de refroidissement des centres de données sur Terre.

ChatGPT Atlas est vulnérable aux injections de prompt et peut aider au phishing

J'ai parlé de comment OpenAI a publié le navigateur ChatGPT Atlas. Et voici que les premiers utilisateurs ont déjà trouvé tout un bouquet de problèmes. Commençons par les choses de base. Le navigateur n'a pas de bloqueur de publicités intégré, pas de mode de lecture et pas de fonction de traduction de texte sur la page. Pour résumer un article ou le traduire, il faut demander au bot dans le chat.

Chine a cassé machine de lithographie ASML en tentant de la copier

Voici une histoire sur comment la substitution des importations a fait face à la dure réalité. La Chine a tenté de démonter une machine de lithographie ASML de catégorie DUV pour étudier sa conception. Résultat ? Ils ont endommagé le système et se sont tournés vers ASML elle-même avec une demande de réparation. L'absurdité de la situation est hors normes.