Post Thumbnail

Hugging Face ускоряет работу с данными в 3 раза

Команда Xet компании Hugging Face представила новый подход к оптимизации загрузки и скачивания данных на платформе Hub, который позволяет ускорить работу с файлами в 2-3 раза. В основе технологии лежит усовершенствованный метод контентно-определяемого разбиения данных (CDC), который революционно меняет способ хранения и передачи информации.

Масштаб проблемы впечатляет: на платформе Hub хранится почти 45 петабайт данных, распределенных по 2 миллионам репозиториев моделей, датасетов и пространств. При стандартном подходе к разбиению файлов на чанки размером 64 КБ, загрузка репозитория объемом 200 ГБ потребовала бы создания 3 миллионов записей в системе хранения. В масштабах всей платформы это могло бы привести к появлению 690 миллиардов чанков.

Команда Hugging Face выявила серьезные проблемы, возникающие при простом стремлении к максимальной дедупликации данных через уменьшение размера чанков. Миллионы отдельных запросов при каждой загрузке и скачивании создают критическую нагрузку на сетевую инфраструктуру. Также возникает чрезмерная нагрузка на базы данных и системы хранения, что приводит к значительному росту затрат на управление метаданными в таких сервисах как DynamoDB и S3.

Для решения этих проблем компания разработала и открыла исходный код инструментов xet-core и hf_xet, написанных на Rust и интегрированных с huggingface_hub. Новый подход фокусируется не только на дедупликации данных, но и на оптимизации их передачи по сети, хранения и общего опыта разработки.

Главной целью команды является обеспечение быстрого экспериментирования и эффективного сотрудничества для команд, работающих над моделями и датасетами.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Робот NEO от 1X работает автономно без интернета на бортовом GPU

Гуманоидный робот NEO от компании 1X Technologies продемонстрировал крутые возможности, которые наконец-то приближают нас к давней мечте человечества о полноценных домашних помощниках.

Волна блокировок в Instagram: ИИ ошибочно банит тысячи аккаунтов

Пользователи Instagram столкнулись с настоящей волной загадочных блокировок, которая продолжается уже несколько недель. Масштаб проблемы поражает. Тысячи аккаунтов оказались заблокированы без видимых нарушений правил платформы.

Полиция разогнала 2 тыс. человек с ИИ-вечеринки стартапа Cluely

Полиция разогнала то, что основатель и директор стартапа искусственного интеллекта Cluely Рой Ли назвал "самой легендарной вечеринкой, которая так и не состоялась".

Первая Олимпиада роботов пройдет в древней Олимпии

Греция готовится принять 1 в мире Международную Олимпиаду антропоморфных роботов. Событие, которое без преувеличения можно назвать важным моментом в эволюции робототехники.

OpenAI нашла "переключатели личностей" в нейронных сетях ИИ

Исследователи OpenAI заглянули в цифровое подсознание нейронных сетей и обнаружили там нечто поразительное. А именно скрытые паттерны, работающие как переключатели различных так называемых "личностей" модели.