Post Thumbnail

Hugging Face accélère le traitement des données par 3

L’équipe Xet de Hugging Face a introduit une nouvelle approche pour optimiser le téléchargement et le téléversement des données sur la plateforme Hub, permettant un traitement des fichiers 2 à 3 fois plus rapide. La technologie est basée sur une méthode améliorée de découpage défini par le contenu (CDC), qui révolutionne la façon dont l’information est stockée et transmise.

L’ampleur du problème est impressionnante : la plateforme Hub stocke près de 45 pétaoctets de données réparties sur 2 millions de dépôts de modèles, de jeux de données et d’espaces. Avec une approche standard de découpage des fichiers en blocs de 64 Ko, le téléversement d’un dépôt de 200 Go nécessiterait la création de 3 millions d’enregistrements de stockage. À l’échelle de la plateforme, cela pourrait conduire à 690 milliards de blocs.

L’équipe Hugging Face a identifié de sérieux problèmes survenant lors de la simple recherche d’une déduplication maximale des données par la réduction de la taille des blocs. Des millions de requêtes séparées lors de chaque téléchargement et téléversement créent une charge critique sur l’infrastructure réseau. Il y a également une charge excessive sur les bases de données et les systèmes de stockage, entraînant des augmentations significatives des coûts de gestion des métadonnées dans des services comme DynamoDB et S3.

Pour résoudre ces problèmes, l’entreprise a développé et rendu open source les outils xet-core et hf_xet, écrits en Rust et intégrés avec huggingface_hub. La nouvelle approche se concentre non seulement sur la déduplication des données mais aussi sur l’optimisation du transfert réseau, du stockage et de l’expérience globale de développement.

L’objectif principal de l’équipe est d’assurer une expérimentation rapide et une collaboration efficace pour les équipes travaillant sur les modèles et les jeux de données.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.
Latest News
L'économiste en chef du FMI a comparé le boom de l'IA à la bulle dotcom

L'économiste en chef du FMI Pierre-Olivier Gourinchas a déclaré que le monde a déjà parcouru la moitié du chemin jusqu'à l'éclatement de la bulle IA et une nouvelle crise financière.

Des chercheurs ont cracké 12 systèmes de protection IA

Vous savez ce que des chercheurs d'OpenAI, Anthropic, Google DeepMind et Harvard viennent de découvrir ? Ils ont essayé de casser des systèmes de sécurité IA populaires et ont trouvé un contournement presque partout. Ils ont vérifié 12 approches de protection courantes. Des formulations intelligentes de prompt système aux filtres externes qui devraient attraper les requêtes dangereuses.

OpenAI a 5 ans pour transformer 13 milliards $ en billion

Vous savez dans quelle position se trouve OpenAI maintenant ? Selon Financial Times, l'entreprise a 5 ans pour transformer 13 milliards de dollars en billion. Et voici à quoi cela ressemble en pratique.

Sam Altman promet de ramener l'humanité dans ChatGPT

Le chef d'OpenAI Sam Altman a fait une déclaration après de nombreuses protestations hors ligne et en ligne contre la fermeture du modèle GPT-4o. Et puis mise en marche, mais avec un routeur sauvage. J'ai parlé de cela la semaine dernière en détail maximum. Citation directe du chef d'OpenAI.

L'IA prend vie : Pourquoi le cofondateur d'Anthropic craint sa création

Le cofondateur d'Anthropic Jack Clark a publié un essai qui rend mal à l'aise. Il a écrit sur la nature de l'intelligence artificielle moderne, et ses conclusions sonnent comme un avertissement.