Post Thumbnail

Hugging Face accélère le traitement des données par 3

L’équipe Xet de Hugging Face a introduit une nouvelle approche pour optimiser le téléchargement et le téléversement des données sur la plateforme Hub, permettant un traitement des fichiers 2 à 3 fois plus rapide. La technologie est basée sur une méthode améliorée de découpage défini par le contenu (CDC), qui révolutionne la façon dont l’information est stockée et transmise.

L’ampleur du problème est impressionnante : la plateforme Hub stocke près de 45 pétaoctets de données réparties sur 2 millions de dépôts de modèles, de jeux de données et d’espaces. Avec une approche standard de découpage des fichiers en blocs de 64 Ko, le téléversement d’un dépôt de 200 Go nécessiterait la création de 3 millions d’enregistrements de stockage. À l’échelle de la plateforme, cela pourrait conduire à 690 milliards de blocs.

L’équipe Hugging Face a identifié de sérieux problèmes survenant lors de la simple recherche d’une déduplication maximale des données par la réduction de la taille des blocs. Des millions de requêtes séparées lors de chaque téléchargement et téléversement créent une charge critique sur l’infrastructure réseau. Il y a également une charge excessive sur les bases de données et les systèmes de stockage, entraînant des augmentations significatives des coûts de gestion des métadonnées dans des services comme DynamoDB et S3.

Pour résoudre ces problèmes, l’entreprise a développé et rendu open source les outils xet-core et hf_xet, écrits en Rust et intégrés avec huggingface_hub. La nouvelle approche se concentre non seulement sur la déduplication des données mais aussi sur l’optimisation du transfert réseau, du stockage et de l’expérience globale de développement.

L’objectif principal de l’équipe est d’assurer une expérimentation rapide et une collaboration efficace pour les équipes travaillant sur les modèles et les jeux de données.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

L'IA dans l'industrie : casques intelligents, inspecteurs quadrupèdes, jumeaux numériques

Au cœur de l'intelligence artificielle industrielle se trouveront des systèmes de maintenance prédictive pour l'analyse des équipements en temps réel. Ces solutions réduiront les temps d'arrêt non planifiés de quarante-cinq pour cent et augmenteront la durée de vie des actifs industriels de trente pour cent. Les systèmes cognitifs traiteront les données de milliers de capteurs, identifiant des modèles au-delà des capacités d'analyse humaine.

L'IA dans la criminalistique : prédictions des crimes, robots patrouilleurs

Selon l'Association Internationale des Scientifiques Médico-légaux, l'implémentation des technologies d'intelligence artificielle augmente l'efficacité de la résolution des crimes complexes de trente à quarante pour cent. Explorons comment cela se produit.

L'IA en médecine : les percées dont les médecins ne parlent pas

La transformation de la médecine grâce à l'intelligence artificielle n'est pas qu'un simple bond technologique. C'est un changement fondamental dans l'approche du traitement et du diagnostic des maladies. Les recherches montrent que le marché mondial de l'intelligence artificielle dans le secteur de la santé atteindra cent quarante-cinq milliards de dollars d'ici la trentième année. Pour comprendre cette croissance - en vingt-quatre, ce marché représentait trente milliards de dollars. C'est presque une multiplication par cinq en six ans ! Examinons ce qui se cache derrière ces chiffres.

YouTube propose de la musique gratuite générée par IA

YouTube lance une fonctionnalité révolutionnaire permettant aux créateurs de contenu de créer une musique instrumentale unique à l'aide de l'intelligence artificielle pour leurs vidéos. La société a annoncé cette nouveauté dans une mise à jour sur sa chaîne Creator Insider.

Les États-Unis prêts à infliger une amende d'un milliard de dollars à TSMC pour sa coopération avec Huawei

Le plus grand fabricant mondial de puces, Taiwan Semiconductor Manufacturing Company (TSMC), risque une amende d'un milliard de dollars ou plus à l'issue d'une enquête sur la violation du contrôle des exportations américaines. La raison en est la découverte de puces de l'entreprise dans les processeurs IA de Huawei, rapporte Reuters.