HuggingFace и IISc создают языковую базу данных Индии
HuggingFace и Индийский институт науки (IISc) объявили о партнерстве, которое сделает Vaani, крупнейший мультимодальный и мультиязычный датасет Индии, доступным разработчикам по всему миру. Проект направлен на создание инклюзивных AI-технологий, учитывающих лингвистическое и культурное разнообразие страны.
Проект Vaani, запущенный в 2022 году совместно IISc/ARTPARK и Google, ставит амбициозную цель: собрать более 150 000 часов речи и 15 000 часов транскрибированного текста от 1 миллиона человек во всех 773 районах Индии. Уникальность проекта заключается в его геоцентричном подходе, который позволяет собирать данные о диалектах и языках, используемых в отдаленных регионах, а не только о mainstream языках.
На данный момент проект реализуется поэтапно. Первая фаза, охватывающая 80 районов, уже завершена, и данные находятся в открытом доступе. Сейчас идет вторая фаза, расширяющая охват еще на 100 районов.
По состоянию на 15 февраля 2025 года, открытая часть датасета включает транскрибированный поднабор, содержащий 790 часов аудио от примерно 700 000 спикеров и охватывающий 70 000 изображений. Этот ресурс предназначен для различных задач, включая:
- Распознавание речи: обучение моделей точной транскрипции устной речи
- Языковое моделирование: создание более совершенных языковых моделей
- Сегментацию: идентификацию отдельных речевых единиц для повышения точности транскрипции
Партнерство между HuggingFace и IISc/ARTPARK нацелено на повышение доступности и удобства использования датасета Vaani, что должно способствовать развитию AI-систем, лучше понимающих разнообразие индийских языков и отвечающих цифровым потребностям населения страны.
Этот проект представляет собой важный шаг в демократизации AI-технологий и создании более инклюзивных решений, учитывающих лингвистическое разнообразие одной из крупнейших стран мира.
Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Qualcomm приветствует инвестиции TSMC в размере $100 млрдИнвестиции Taiwan Semiconductor Manufacturing Co. (TSMC) в размере $100 млрд в расширение производства на территории США — "отличная новость", заявил генеральный директор Qualcomm Кристиано Амон в интервью CNBC во вторник, 4 марта 2025 года. По его словам, это способствует диверсификации мест производства полупроводников.
DuckDuckGo усиливает интеграцию генеративного ИИЧастный поисковый сервис DuckDuckGo продолжает укреплять свои позиции в сфере генеративного искусственного интеллекта. Согласно блог-посту, опубликованному в четверг, 6 марта 2025 года, компания объявила о завершении бета-тестирования своего чат-интерфейса, который теперь официально называется Duck.ai, отказавшись от более громоздкого названия DuckDuckGo AI Chat.
Цифровой скандал в Los Angeles TimesМиллиардер и владелец Los Angeles Times Патрик Сун-Шионг, представивший новый AI-инструмент для генерации противоположных перспектив к материалам раздела мнений, не знал, что система создала про-ККК аргументы менее чем через 24 часа после запуска — и даже спустя часы после того, как скандальные AI-комментарии были удалены с сайта издания. Инцидент создал огромное препятствие для Times, которая стремится вернуть старых подписчиков и привлечь новых с помощью инновационных технологических решений.
Google Shopping запускает AI-инструментGoogle объявил о запуске нового AI-инструмента для вкладки Shopping, который поможет пользователям находить одежду по их словесному описанию. Анонс, сделанный в среду, 5 марта 2025 года, также включает расширение возможностей инструментов дополненной реальности (AR) для косметики и виртуальной примерки.
"Не могу помочь с ответами о выборах и политических фигурах": GeminiТехнологический гигант Google по-прежнему ограничивает возможности своего AI-ассистента Gemini в области политического дискурса, несмотря на то что основные конкуренты компании, включая OpenAI, Anthropic и Meta, уже адаптировали свои чат-боты для обсуждения политически чувствительных тем в последние месяцы.