Post Thumbnail

HuggingFace und IISc erstellen Sprachdatenbank Indiens

HuggingFace und das Indian Institute of Science (IISc) haben eine Partnerschaft angekündigt, die Vaani, den größten multimodalen und mehrsprachigen Datensatz Indiens, Entwicklern weltweit zugänglich machen wird. Das Projekt zielt darauf ab, inklusive KI-Technologien zu schaffen, die die sprachliche und kulturelle Vielfalt des Landes berücksichtigen.

Das Vaani-Projekt, das 2022 gemeinsam von IISc/ARTPARK und Google gestartet wurde, setzt sich ein ehrgeiziges Ziel: mehr als 150.000 Stunden Sprache und 15.000 Stunden transkribierter Text von 1 Million Menschen in allen 773 Bezirken Indiens zu sammeln. Die Einzigartigkeit des Projekts liegt in seinem geozentrischen Ansatz, der es ermöglicht, Daten über Dialekte und Sprachen zu sammeln, die in abgelegenen Regionen verwendet werden, nicht nur über Mainstream-Sprachen.

Gegenwärtig wird das Projekt in Phasen umgesetzt. Die erste Phase, die 80 Bezirke umfasst, ist bereits abgeschlossen, und die Daten sind öffentlich zugänglich. Die zweite Phase läuft jetzt und erweitert die Abdeckung um weitere 100 Bezirke.

Mit Stand vom 15. Februar 2025 umfasst der offene Teil des Datensatzes eine transkribierte Teilmenge mit 790 Stunden Audio von etwa 700.000 Sprechern und deckt 70.000 Bilder ab. Diese Ressource ist für verschiedene Aufgaben bestimmt, darunter:
– Spracherkennung: Training von Modellen für die genaue Transkription gesprochener Sprache
– Sprachmodellierung: Erstellung fortschrittlicherer Sprachmodelle
– Segmentierung: Identifizierung einzelner Spracheinheiten zur Verbesserung der Transkriptionsgenauigkeit

Die Partnerschaft zwischen HuggingFace und IISc/ARTPARK zielt darauf ab, die Zugänglichkeit und Benutzerfreundlichkeit des Vaani-Datensatzes zu erhöhen, was zur Entwicklung von KI-Systemen beitragen sollte, die die Vielfalt der indischen Sprachen besser verstehen und den digitalen Bedürfnissen der Bevölkerung des Landes gerecht werden.

Dieses Projekt stellt einen wichtigen Schritt bei der Demokratisierung von KI-Technologien und der Schaffung inklusiverer Lösungen dar, die die sprachliche Vielfalt eines der größten Länder der Welt berücksichtigen.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.

Latest News

YouTube bietet kostenlose KI-generierte Musik an

YouTube startet eine revolutionäre Funktion, die es Erstellern ermöglicht, mithilfe künstlicher Intelligenz einzigartige Instrumentalmusik für ihre Videos zu erstellen. Das Unternehmen teilte dies in einem Update auf seinem Creator Insider-Kanal mit.

USA bereit, TSMC mit 1 Milliarde Dollar für Zusammenarbeit mit Huawei zu bestrafen

Dem weltweit größten Chiphersteller Taiwan Semiconductor Manufacturing Company (TSMC) droht eine Geldstrafe in Höhe von 1 Milliarde Dollar oder mehr nach Abschluss einer Untersuchung über Verstöße gegen US-Exportkontrollen. Der Grund war die Entdeckung von Chips des Unternehmens in KI-Prozessoren von Huawei, berichtet Reuters.

Google startet Gemini für Unternehmensanwender

Google hat die Einführung von Gemini in Android Studio für Unternehmen angekündigt - einen neuen Abonnementdienst, der die Entwicklung von Unternehmensanwendungen vereinfachen soll. Die Ankündigung erfolgte auf der Google Cloud Next 2025 Konferenz in Las Vegas und zielt darauf ab, die Position des Unternehmens im Unternehmenssektor zu stärken.

OpenAI startet Benchmark-Programm Pioneers Program

OpenAI hat die Einführung eines ambitionierten Pioneers Program angekündigt, das darauf abzielt, grundlegend neue Standards für die Bewertung künstlicher Intelligenz zu schaffen. Das Unternehmen beabsichtigt, ein System zur Prüfung von KI-Modellen zu entwickeln, das ihre tatsächliche Wirksamkeit in verschiedenen Berufsbereichen besser widerspiegelt.

China veranstaltet ersten Roboter-Marathon der Geschichte

Peking bereitet sich darauf vor, in die Geschichte der Weltrobotik einzugehen: Am 13. April 2025 findet in der chinesischen Hauptstadt der weltweit erste Halbmarathon mit anthropomorphen Robotern statt. Bei diesem beispiellosen Ereignis werden Dutzende menschenähnliche Maschinen zusammenkommen, die eine Strecke von 21 Kilometern zurücklegen müssen.