Post Thumbnail

HuggingFace und IISc erstellen Sprachdatenbank Indiens

HuggingFace und das Indian Institute of Science (IISc) haben eine Partnerschaft angekündigt, die Vaani, den größten multimodalen und mehrsprachigen Datensatz Indiens, Entwicklern weltweit zugänglich machen wird. Das Projekt zielt darauf ab, inklusive KI-Technologien zu schaffen, die die sprachliche und kulturelle Vielfalt des Landes berücksichtigen.

Das Vaani-Projekt, das 2022 gemeinsam von IISc/ARTPARK und Google gestartet wurde, setzt sich ein ehrgeiziges Ziel: mehr als 150.000 Stunden Sprache und 15.000 Stunden transkribierter Text von 1 Million Menschen in allen 773 Bezirken Indiens zu sammeln. Die Einzigartigkeit des Projekts liegt in seinem geozentrischen Ansatz, der es ermöglicht, Daten über Dialekte und Sprachen zu sammeln, die in abgelegenen Regionen verwendet werden, nicht nur über Mainstream-Sprachen.

Gegenwärtig wird das Projekt in Phasen umgesetzt. Die erste Phase, die 80 Bezirke umfasst, ist bereits abgeschlossen, und die Daten sind öffentlich zugänglich. Die zweite Phase läuft jetzt und erweitert die Abdeckung um weitere 100 Bezirke.

Mit Stand vom 15. Februar 2025 umfasst der offene Teil des Datensatzes eine transkribierte Teilmenge mit 790 Stunden Audio von etwa 700.000 Sprechern und deckt 70.000 Bilder ab. Diese Ressource ist für verschiedene Aufgaben bestimmt, darunter:
– Spracherkennung: Training von Modellen für die genaue Transkription gesprochener Sprache
– Sprachmodellierung: Erstellung fortschrittlicherer Sprachmodelle
– Segmentierung: Identifizierung einzelner Spracheinheiten zur Verbesserung der Transkriptionsgenauigkeit

Die Partnerschaft zwischen HuggingFace und IISc/ARTPARK zielt darauf ab, die Zugänglichkeit und Benutzerfreundlichkeit des Vaani-Datensatzes zu erhöhen, was zur Entwicklung von KI-Systemen beitragen sollte, die die Vielfalt der indischen Sprachen besser verstehen und den digitalen Bedürfnissen der Bevölkerung des Landes gerecht werden.

Dieses Projekt stellt einen wichtigen Schritt bei der Demokratisierung von KI-Technologien und der Schaffung inklusiverer Lösungen dar, die die sprachliche Vielfalt eines der größten Länder der Welt berücksichtigen.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.
Latest News
Michael Burry setzte 1,1 Milliarden Dollar gegen Nvidia und Palantir

Michael Burry - das ist ein legendärer Investor, der die Hypothekenkrise 2008 voraussagte. Und jetzt macht er wieder einen lauten Zug. Michael setzte 1,1 Milliarden Dollar in Put-Optionen gegen 2 große Unternehmen aus dem KI-Sektor. Das sind Nvidia und Palantir.

XPeng stellte ersten weiblichen humanoiden Roboter der Welt vor

Der chinesische Elektroautohersteller XPeng stellte den humanoiden Roboter der neuen Generation IRON vor. Und dies ist der erste weibliche Humanoide!

Anthropic führt Interviews mit Modellen vor Ruhestand durch

Anthropic veröffentlichte eine Richtlinie zur "Außerbetriebnahme" veralteter KI-Versionen. Schlüsselverpflichtung ist es, die Gewichte aller öffentlichen und intern aktiv genutzten Modelle mindestens für die Lebensdauer des Unternehmens zu bewahren. Damit in Zukunft bei Bedarf der Zugang wiederhergestellt werden kann.

Nvidia-Chef glaubt, dass es keine KI-Blase gibt

Nvidia-Gründer Jensen Huang zerstreute Bedenken bezüglich einer Blase auf dem KI-Markt. Und seinen Worten nach werden die neuesten Chips des Unternehmens voraussichtlich 0,5 Billionen Dollar Umsatz bringen.

Sam Altman ist müde von Geldfragen

Sam Altman ist müde von Fragen über OpenAIs Geld. Und das wurde während eines gemeinsamen Interviews mit Satya Nadella im Bg2-Podcast offensichtlich.