Post Thumbnail

Hugging Face accélère le traitement des données par 3

L’équipe Xet de Hugging Face a introduit une nouvelle approche pour optimiser le téléchargement et le téléversement des données sur la plateforme Hub, permettant un traitement des fichiers 2 à 3 fois plus rapide. La technologie est basée sur une méthode améliorée de découpage défini par le contenu (CDC), qui révolutionne la façon dont l’information est stockée et transmise.

L’ampleur du problème est impressionnante : la plateforme Hub stocke près de 45 pétaoctets de données réparties sur 2 millions de dépôts de modèles, de jeux de données et d’espaces. Avec une approche standard de découpage des fichiers en blocs de 64 Ko, le téléversement d’un dépôt de 200 Go nécessiterait la création de 3 millions d’enregistrements de stockage. À l’échelle de la plateforme, cela pourrait conduire à 690 milliards de blocs.

L’équipe Hugging Face a identifié de sérieux problèmes survenant lors de la simple recherche d’une déduplication maximale des données par la réduction de la taille des blocs. Des millions de requêtes séparées lors de chaque téléchargement et téléversement créent une charge critique sur l’infrastructure réseau. Il y a également une charge excessive sur les bases de données et les systèmes de stockage, entraînant des augmentations significatives des coûts de gestion des métadonnées dans des services comme DynamoDB et S3.

Pour résoudre ces problèmes, l’entreprise a développé et rendu open source les outils xet-core et hf_xet, écrits en Rust et intégrés avec huggingface_hub. La nouvelle approche se concentre non seulement sur la déduplication des données mais aussi sur l’optimisation du transfert réseau, du stockage et de l’expérience globale de développement.

L’objectif principal de l’équipe est d’assurer une expérimentation rapide et une collaboration efficace pour les équipes travaillant sur les modèles et les jeux de données.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

Robot NEO de 1X fonctionne de manière autonome sans internet sur GPU embarqué

Le robot humanoïde NEO de 1X Technologies a démontré des capacités cool qui nous rapprochent enfin du rêve de longue date de l'humanité d'assistants domestiques à part entière.

Vague de blocages sur Instagram : l'IA bannit par erreur des milliers de comptes

Les utilisateurs d'Instagram font face à une vraie vague de blocages mystérieux qui continue depuis plusieurs semaines. L'ampleur du problème est stupéfiante. Des milliers de comptes ont été bloqués sans violations visibles des règles de la plateforme.

Police a dispersé 2 000 personnes de la fête de la startup IA Cluely

La police a dispersé ce que le fondateur et directeur de la startup IA Cluely Roy Li a appelé "la fête la plus légendaire qui n'a jamais eu lieu".

Première Olympiade de robots aura lieu dans l'Olympie antique

La Grèce se prépare à accueillir la première Olympiade internationale de robots anthropomorphes au monde. Un événement qui peut sans exagération être appelé un moment important dans l'évolution de la robotique.

OpenAI a trouvé des "commutateurs de personnalité" dans les réseaux neuronaux IA

Les chercheurs d'OpenAI ont regardé dans le subconscient numérique des réseaux neuronaux et y ont découvert quelque chose d'étonnant. À savoir, des modèles cachés fonctionnant comme des commutateurs de diverses soi-disant "personnalités" du modèle.