
Hugging Face accélère le traitement des données par 3
L’équipe Xet de Hugging Face a introduit une nouvelle approche pour optimiser le téléchargement et le téléversement des données sur la plateforme Hub, permettant un traitement des fichiers 2 à 3 fois plus rapide. La technologie est basée sur une méthode améliorée de découpage défini par le contenu (CDC), qui révolutionne la façon dont l’information est stockée et transmise.
L’ampleur du problème est impressionnante : la plateforme Hub stocke près de 45 pétaoctets de données réparties sur 2 millions de dépôts de modèles, de jeux de données et d’espaces. Avec une approche standard de découpage des fichiers en blocs de 64 Ko, le téléversement d’un dépôt de 200 Go nécessiterait la création de 3 millions d’enregistrements de stockage. À l’échelle de la plateforme, cela pourrait conduire à 690 milliards de blocs.
L’équipe Hugging Face a identifié de sérieux problèmes survenant lors de la simple recherche d’une déduplication maximale des données par la réduction de la taille des blocs. Des millions de requêtes séparées lors de chaque téléchargement et téléversement créent une charge critique sur l’infrastructure réseau. Il y a également une charge excessive sur les bases de données et les systèmes de stockage, entraînant des augmentations significatives des coûts de gestion des métadonnées dans des services comme DynamoDB et S3.
Pour résoudre ces problèmes, l’entreprise a développé et rendu open source les outils xet-core et hf_xet, écrits en Rust et intégrés avec huggingface_hub. La nouvelle approche se concentre non seulement sur la déduplication des données mais aussi sur l’optimisation du transfert réseau, du stockage et de l’expérience globale de développement.
L’objectif principal de l’équipe est d’assurer une expérimentation rapide et une collaboration efficace pour les équipes travaillant sur les modèles et les jeux de données.