HuggingFace и IISc создают языковую базу данных Индии

Post Thumbnail

HuggingFace и Индийский институт науки (IISc) объявили о партнерстве, которое сделает Vaani, крупнейший мультимодальный и мультиязычный датасет Индии, доступным разработчикам по всему миру. Проект направлен на создание инклюзивных AI-технологий, учитывающих лингвистическое и культурное разнообразие страны.

Проект Vaani, запущенный в 2022 году совместно IISc/ARTPARK и Google, ставит амбициозную цель: собрать более 150 000 часов речи и 15 000 часов транскрибированного текста от 1 миллиона человек во всех 773 районах Индии. Уникальность проекта заключается в его геоцентричном подходе, который позволяет собирать данные о диалектах и языках, используемых в отдаленных регионах, а не только о mainstream языках.

На данный момент проект реализуется поэтапно. Первая фаза, охватывающая 80 районов, уже завершена, и данные находятся в открытом доступе. Сейчас идет вторая фаза, расширяющая охват еще на 100 районов.

По состоянию на 15 февраля 2025 года, открытая часть датасета включает транскрибированный поднабор, содержащий 790 часов аудио от примерно 700 000 спикеров и охватывающий 70 000 изображений. Этот ресурс предназначен для различных задач, включая:

  • Распознавание речи: обучение моделей точной транскрипции устной речи
  • Языковое моделирование: создание более совершенных языковых моделей
  • Сегментацию: идентификацию отдельных речевых единиц для повышения точности транскрипции

Партнерство между HuggingFace и IISc/ARTPARK нацелено на повышение доступности и удобства использования датасета Vaani, что должно способствовать развитию AI-систем, лучше понимающих разнообразие индийских языков и отвечающих цифровым потребностям населения страны.

Этот проект представляет собой важный шаг в демократизации AI-технологий и создании более инклюзивных решений, учитывающих лингвистическое разнообразие одной из крупнейших стран мира.

Почитать из последнего
100 тыс. диалогов подтвердили экономию 80% времени с помощью ИИ
Anthropic проанализировала 100 тыс. реальных диалогов с Claude. И эти цифры теперь можно использовать в спорах о пользе искусственного интеллекта. Задачи, которые у людей занимают около 90 минут и стоят примерно 55 долларов труда, Claude выполняет на 80% быстрее человека.
Обнаружен способ обхода защиты ИИ в 90% случаев
Стихи ломают защиту больших языковых моделей. И это плохо для индустрии. Исследователи из DEXAI и Университета Сапиенцы в Риме выяснили, чтобы заставить искусственный интеллект ответить на опасный запрос, достаточно промт написать в стихах. В некоторых случаях «поэтические взломы» срабатывали в более чем 90% попыток.
Google опасался ошибок, а OpenAI на этом заработал миллиарды
Стэнфорд выпустил интервью с создателем Google Сергеем Брином, и там прозвучала фраза, которая объясняет всё происходящее в индустрии ИИ. «Главной ошибкой Google было недооценить трансформеры». Не технология подвела - подвела вера в неё.
Крёстный отец ИИ назвал AGI полной чушью
Один из «крестных отцов» искусственного интеллекта Ян Лекун заявил, что понятия general intelligence или AGI вообще не существует. Это не просто провокация - это удар по основам всей дискуссии об ИИ. Потому что если нет понятия, то что мы вообще пытаемся создать?
Новый Gemini 3 Flash быстрее в 3 раза и обходит Pro модель, но стоит копейки
Google выпустили Gemini 3 Flash, и это frontier-модель со скоростью Flash и ценой, которая ломает привычные правила рынка.