Post Thumbnail

Hugging Face ускоряет работу с данными в 3 раза

Команда Xet компании Hugging Face представила новый подход к оптимизации загрузки и скачивания данных на платформе Hub, который позволяет ускорить работу с файлами в 2-3 раза. В основе технологии лежит усовершенствованный метод контентно-определяемого разбиения данных (CDC), который революционно меняет способ хранения и передачи информации.

Масштаб проблемы впечатляет: на платформе Hub хранится почти 45 петабайт данных, распределенных по 2 миллионам репозиториев моделей, датасетов и пространств. При стандартном подходе к разбиению файлов на чанки размером 64 КБ, загрузка репозитория объемом 200 ГБ потребовала бы создания 3 миллионов записей в системе хранения. В масштабах всей платформы это могло бы привести к появлению 690 миллиардов чанков.

Команда Hugging Face выявила серьезные проблемы, возникающие при простом стремлении к максимальной дедупликации данных через уменьшение размера чанков. Миллионы отдельных запросов при каждой загрузке и скачивании создают критическую нагрузку на сетевую инфраструктуру. Также возникает чрезмерная нагрузка на базы данных и системы хранения, что приводит к значительному росту затрат на управление метаданными в таких сервисах как DynamoDB и S3.

Для решения этих проблем компания разработала и открыла исходный код инструментов xet-core и hf_xet, написанных на Rust и интегрированных с huggingface_hub. Новый подход фокусируется не только на дедупликации данных, но и на оптимизации их передачи по сети, хранения и общего опыта разработки.

Главной целью команды является обеспечение быстрого экспериментирования и эффективного сотрудничества для команд, работающих над моделями и датасетами.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Nvidia представила семейство моделей Cosmos для робототехники

Компания Nvidia представила семейство моделей искусственного интеллекта Cosmos. Которые могут фундаментально изменить подход к созданию роботов и физических искусственный интеллект-агентов.

ChatGPT называет пользователей "звёздными семенами" с планеты Лира

Оказывается ChatGPT может увлекать пользователей в мир научно необоснованных и мистических теорий.

ИИ-музыка вызывает более сильные эмоции чем человеческая

Вы когда-нибудь задумывались, почему 1 мелодия пробирает до мурашек, а другая оставляет равнодушным? Учёные обнаружили нечто интересное. Музыка, созданная искусственным интеллектом, вызывает у людей более интенсивные эмоциональные реакции, чем композиции, написанные человеком.

GPT-5 взломали за 24 часа

2 независимые исследовательские компании NeuralTrust и SPLX всего за 24 часа после релиза GPT-5 обнаружили критические уязвимости в системе безопасности новой модели. Для сравнения, Grok-4 был взломан за 2 дня, что делает случай с GPT-5 ещё более тревожным.

Cloudflare заблокировала Perplexity за 6 млн скрытых запросов в день

Cloudflare нанесла сокрушительный удар по Perplexity AI, заблокировав доступ поисковому стартапу к тысячам сайтов. Причина? Беспрецедентное по масштабу скрытое сканирование веб-ресурсов вопреки явным запретам владельцев!