Post Thumbnail

HuggingFace et IISc créent une base de données linguistique de l’Inde

HuggingFace et l’Institut indien des sciences (IISc) ont annoncé un partenariat qui rendra Vaani, le plus grand ensemble de données multimodal et multilingue de l’Inde, accessible aux développeurs du monde entier. Le projet vise à créer des technologies d’IA inclusives qui tiennent compte de la diversité linguistique et culturelle du pays.

Le projet Vaani, lancé en 2022 conjointement par IISc/ARTPARK et Google, se fixe un objectif ambitieux: collecter plus de 150 000 heures de parole et 15 000 heures de texte transcrit auprès de 1 million de personnes dans les 773 districts de l’Inde. L’unicité du projet réside dans son approche géocentrique, qui permet de collecter des données sur les dialectes et les langues utilisés dans les régions éloignées, et pas seulement sur les langues mainstream.

Actuellement, le projet est mis en œuvre par phases. La première phase, couvrant 80 districts, est déjà terminée, et les données sont en accès libre. La deuxième phase est maintenant en cours, élargissant la couverture à 100 districts supplémentaires.

Au 15 février 2025, la partie ouverte de l’ensemble de données comprend un sous-ensemble transcrit contenant 790 heures d’audio d’environ 700 000 locuteurs et couvrant 70 000 images. Cette ressource est destinée à diverses tâches, notamment:
– Reconnaissance vocale: formation de modèles pour une transcription précise de la parole
– Modélisation linguistique: création de modèles de langage plus avancés
– Segmentation: identification d’unités de parole individuelles pour améliorer la précision de la transcription

Le partenariat entre HuggingFace et IISc/ARTPARK vise à accroître l’accessibilité et la facilité d’utilisation de l’ensemble de données Vaani, ce qui devrait contribuer au développement de systèmes d’IA qui comprennent mieux la diversité des langues indiennes et répondent aux besoins numériques de la population du pays.

Ce projet représente une étape importante dans la démocratisation des technologies d’IA et la création de solutions plus inclusives qui tiennent compte de la diversité linguistique de l’un des plus grands pays du monde.

Auteur: AIvengo
Depuis 5 ans, je travaille dans l'apprentissage automatique et l'intelligence artificielle. Et ce domaine ne cesse de m'étonner, de m'inspirer et de m'intéresser.

Latest News

Comment créer un univers infini avec un seul prompt textuel

Oubliez tout ce que vous saviez sur la création de mondes de jeu. Tencent vient de publier le modèle open-source Hunyuan-GameCraft. Qui génère des mondes virtuels interactifs directement sur votre carte graphique. Lien dans la description. Un prompt textuel — et vous avez un univers infini.

Comment la synchronisation de 3 sources lumineuses protège contre les contrefaçons

L'intelligence artificielle a appris à créer des fausses vidéos impossibles à distinguer de la réalité. Et c'est un énorme problème et une question de confiance dans la société. Mais les scientifiques de l'Université Cornell ont trouvé une solution géniale. Ils ont caché des filigranes directement dans l'éclairage ordinaire.

Hip-hop, wushu et opéra de Pékin à la cérémonie d'ouverture de la robotiade

La Chine a accueilli les premiers Jeux Mondiaux de Robots Humanoïdes où 280 équipes de 16 pays ont concouru. Qui ont apporté plus de 500 androïdes. C'est devenu presque de vrais Jeux olympiques pour robots avec tous les attributs du grand sport.

Le premier système LAARMA protège les animaux sur les routes australiennes

En Australie, les collisions d'animaux avec les automobiles constituent un problème sérieux pour l'écosystème de ce continent. Maintenant les scientifiques ont trouvé une solution technologique. Le premier système routier LAARMA au monde basé sur l'intelligence artificielle, qui protège les animaux sauvages des rencontres dangereuses avec le transport.

Nvidia a présenté la famille de modèles Cosmos pour la robotique

L'entreprise Nvidia a présenté la famille Cosmos de modèles d'IA. Qui peuvent fondamentalement changer l'approche de création de robots et d'agents IA physiques.