Post Thumbnail

Hugging Face accélère le traitement des données par 3

L’équipe Xet de Hugging Face a introduit une nouvelle approche pour optimiser le téléchargement et le téléversement des données sur la plateforme Hub, permettant un traitement des fichiers 2 à 3 fois plus rapide. La technologie est basée sur une méthode améliorée de découpage défini par le contenu (CDC), qui révolutionne la façon dont l’information est stockée et transmise.

L’ampleur du problème est impressionnante : la plateforme Hub stocke près de 45 pétaoctets de données réparties sur 2 millions de dépôts de modèles, de jeux de données et d’espaces. Avec une approche standard de découpage des fichiers en blocs de 64 Ko, le téléversement d’un dépôt de 200 Go nécessiterait la création de 3 millions d’enregistrements de stockage. À l’échelle de la plateforme, cela pourrait conduire à 690 milliards de blocs.

L’équipe Hugging Face a identifié de sérieux problèmes survenant lors de la simple recherche d’une déduplication maximale des données par la réduction de la taille des blocs. Des millions de requêtes séparées lors de chaque téléchargement et téléversement créent une charge critique sur l’infrastructure réseau. Il y a également une charge excessive sur les bases de données et les systèmes de stockage, entraînant des augmentations significatives des coûts de gestion des métadonnées dans des services comme DynamoDB et S3.

Pour résoudre ces problèmes, l’entreprise a développé et rendu open source les outils xet-core et hf_xet, écrits en Rust et intégrés avec huggingface_hub. La nouvelle approche se concentre non seulement sur la déduplication des données mais aussi sur l’optimisation du transfert réseau, du stockage et de l’expérience globale de développement.

L’objectif principal de l’équipe est d’assurer une expérimentation rapide et une collaboration efficace pour les équipes travaillant sur les modèles et les jeux de données.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

Nvidia a présenté la famille de modèles Cosmos pour la robotique

L'entreprise Nvidia a présenté la famille Cosmos de modèles d'IA. Qui peuvent fondamentalement changer l'approche de création de robots et d'agents IA physiques.

ChatGPT appelle les utilisateurs "graines d'étoiles" de la planète Lyra

Il s'avère que ChatGPT peut entraîner les utilisateurs dans le monde de théories scientifiquement non fondées et mystiques.

La musique IA déclenche des émotions plus fortes que la musique humaine

Vous êtes-vous déjà demandé pourquoi une mélodie donne la chair de poule tandis qu'une autre laisse indifférent ? Les scientifiques ont découvert quelque chose d'intéressant. La musique créée par l'intelligence artificielle déclenche chez les gens des réactions émotionnelles plus intenses que les compositions écrites par des humains.

GPT-5 a été piraté en 24 heures

2 entreprises de recherche indépendantes NeuralTrust et SPLX ont découvert des vulnérabilités critiques dans le système de sécurité du nouveau modèle seulement 24 heures après la sortie de GPT-5. Pour comparaison, Grok-4 a été piraté en 2 jours, rendant le cas de GPT-5 encore plus alarmant.

Cloudflare a bloqué Perplexity pour 6 millions de requêtes cachées par jour

Cloudflare a porté un coup écrasant à Perplexity AI, bloquant l'accès de la startup de recherche à des milliers de sites. La raison ? Scannung caché de ressources web d'une ampleur sans précédent malgré les interdictions explicites des propriétaires !