HuggingFace и IISc создают языковую базу данных Индии

Post Thumbnail

HuggingFace и Индийский институт науки (IISc) объявили о партнерстве, которое сделает Vaani, крупнейший мультимодальный и мультиязычный датасет Индии, доступным разработчикам по всему миру. Проект направлен на создание инклюзивных AI-технологий, учитывающих лингвистическое и культурное разнообразие страны.

Проект Vaani, запущенный в 2022 году совместно IISc/ARTPARK и Google, ставит амбициозную цель: собрать более 150 000 часов речи и 15 000 часов транскрибированного текста от 1 миллиона человек во всех 773 районах Индии. Уникальность проекта заключается в его геоцентричном подходе, который позволяет собирать данные о диалектах и языках, используемых в отдаленных регионах, а не только о mainstream языках.

На данный момент проект реализуется поэтапно. Первая фаза, охватывающая 80 районов, уже завершена, и данные находятся в открытом доступе. Сейчас идет вторая фаза, расширяющая охват еще на 100 районов.

По состоянию на 15 февраля 2025 года, открытая часть датасета включает транскрибированный поднабор, содержащий 790 часов аудио от примерно 700 000 спикеров и охватывающий 70 000 изображений. Этот ресурс предназначен для различных задач, включая:

  • Распознавание речи: обучение моделей точной транскрипции устной речи
  • Языковое моделирование: создание более совершенных языковых моделей
  • Сегментацию: идентификацию отдельных речевых единиц для повышения точности транскрипции

Партнерство между HuggingFace и IISc/ARTPARK нацелено на повышение доступности и удобства использования датасета Vaani, что должно способствовать развитию AI-систем, лучше понимающих разнообразие индийских языков и отвечающих цифровым потребностям населения страны.

Этот проект представляет собой важный шаг в демократизации AI-технологий и создании более инклюзивных решений, учитывающих лингвистическое разнообразие одной из крупнейших стран мира.

Почитать из последнего
Более 30 000 врачей и юристов обучают нейросети делать их работу
Представьте картину: журналист с 20-летним стажем, которого выкинули в прошлом году, сидит и правит статьи, которые создал ИИ. 20-30 часов в неделю. За деньги. Чтобы машина научилась писать ещё лучше. Абсурд? Добро пожаловать в новую реальность белых воротничков.
Из-за ИИ теоретическая физика исчезнет через 10 лет
Физик-теоретик и популяризатор науки Сабина Хоссенфельдер, выдала интересный прогноз. Она считает, что через 3 года научные исследования в привычном виде перестанут существовать. А через 10 лет теоретическая физика как область человеческой деятельности может практически закончиться. Для решения задач будет достаточно просто купить вычислительное время нейросети. Звучит как антиутопия? Только вот процесс уже пошёл.
Nvidia и Siemens превратят завод в гигантского робота с ИИ
Глава Nvidia Дженсен Хуанг на выставке CES выдал очень интересную фразу, цитирую: "Эти производственные предприятия, по сути, станут гигантскими роботами". Так Nvidia и Siemens анонсировали создание Industrial AI Operating System. Платформы, которая внедрит ИИ во всю цепочку промышленного производства. От проектирования до логистики. Завод будущего не просто автоматизирован — он думает сам.
Крёстный отец SaaS уволил продажников и заменил их ИИ за полгода
Джейсон Лемкин, которого называют крёстным отцом SaaS и основателем сообщества SaaStr, публично заявил что больше не будет нанимать людей в отдел продаж своей компании. Вместо живых менеджеров теперь работают агенты на основе ИИ. По его словам, переход занял меньше года.
Создатель Signal запустил ИИ-ассистента с полной анонимностью
Создатель мессенджера Signal Мокси Марлинспайк, решил сделать с чат-ботами то же что сделал с мессенджерами. Добавить слой анонимности который не пробьёшь. Его новый проект Confer с открытым исходным кодом гарантирует что данные пользователей будут недоступны вообще никому. Ни оператору платформы, ни хакерам, ни правоохранителям, ни любой другой стороне кроме самих владельцев.