HuggingFace и IISc создают языковую базу данных Индии

Post Thumbnail

HuggingFace и Индийский институт науки (IISc) объявили о партнерстве, которое сделает Vaani, крупнейший мультимодальный и мультиязычный датасет Индии, доступным разработчикам по всему миру. Проект направлен на создание инклюзивных AI-технологий, учитывающих лингвистическое и культурное разнообразие страны.

Проект Vaani, запущенный в 2022 году совместно IISc/ARTPARK и Google, ставит амбициозную цель: собрать более 150 000 часов речи и 15 000 часов транскрибированного текста от 1 миллиона человек во всех 773 районах Индии. Уникальность проекта заключается в его геоцентричном подходе, который позволяет собирать данные о диалектах и языках, используемых в отдаленных регионах, а не только о mainstream языках.

На данный момент проект реализуется поэтапно. Первая фаза, охватывающая 80 районов, уже завершена, и данные находятся в открытом доступе. Сейчас идет вторая фаза, расширяющая охват еще на 100 районов.

По состоянию на 15 февраля 2025 года, открытая часть датасета включает транскрибированный поднабор, содержащий 790 часов аудио от примерно 700 000 спикеров и охватывающий 70 000 изображений. Этот ресурс предназначен для различных задач, включая:

  • Распознавание речи: обучение моделей точной транскрипции устной речи
  • Языковое моделирование: создание более совершенных языковых моделей
  • Сегментацию: идентификацию отдельных речевых единиц для повышения точности транскрипции

Партнерство между HuggingFace и IISc/ARTPARK нацелено на повышение доступности и удобства использования датасета Vaani, что должно способствовать развитию AI-систем, лучше понимающих разнообразие индийских языков и отвечающих цифровым потребностям населения страны.

Этот проект представляет собой важный шаг в демократизации AI-технологий и создании более инклюзивных решений, учитывающих лингвистическое разнообразие одной из крупнейших стран мира.

Почитать из последнего
ChatGPT за 21 день убедил нормального мужика, что он открыл формулу уничтожения интернета
Рекрутёр Алан Брукс лёг на диван в своём доме в Канаде. В 47 лет можно и отдохнуть. Включил сыну видео про число пи и вечером задал ChatGPT невинный вопрос: объясни, что это такое? Через 21 день он рассылал предупреждения по всему интернету о том, что открыл математическую формулу, способную уничтожить интернет. Параллельно разрабатывал жилет-силовой щит и левитационный луч. Он не наблюдался у психиатра. Просто человек с телефоном и чатботом.
Вайб-кодинг убивает Open Source - и это проблема для всех
Исследователи из Центрально-Европейского университета в Вене обнаружили жёсткую закономерность. Вайб-кодеры только потребляют ресурсы, но ничего не отдают обратно. Откуда нейросеть может взять знания? А берет она их из Open Source. Из тех самых бесплатных библиотек и фреймворков, которые энтузиасты создавали 10летиями.
Как уболтали ИИ-бота на скидку 80%
Владелец небольшого бизнеса в Англии поставил на сайт чат-бота на ИИ, чтобы он отвечал на вопросы клиентов по ночам. Полгода всё работало идеально — бот консультировал и помогал оформлять заказы, даже продажи росли. А потом нашёлся 1 хитрец, который за час беседы выманил у искусственного интеллекта скидку 80% на заказ в £8000.