Post Thumbnail

Hugging Face ускоряет работу с данными в 3 раза

Команда Xet компании Hugging Face представила новый подход к оптимизации загрузки и скачивания данных на платформе Hub, который позволяет ускорить работу с файлами в 2-3 раза. В основе технологии лежит усовершенствованный метод контентно-определяемого разбиения данных (CDC), который революционно меняет способ хранения и передачи информации.

Масштаб проблемы впечатляет: на платформе Hub хранится почти 45 петабайт данных, распределенных по 2 миллионам репозиториев моделей, датасетов и пространств. При стандартном подходе к разбиению файлов на чанки размером 64 КБ, загрузка репозитория объемом 200 ГБ потребовала бы создания 3 миллионов записей в системе хранения. В масштабах всей платформы это могло бы привести к появлению 690 миллиардов чанков.

Команда Hugging Face выявила серьезные проблемы, возникающие при простом стремлении к максимальной дедупликации данных через уменьшение размера чанков. Миллионы отдельных запросов при каждой загрузке и скачивании создают критическую нагрузку на сетевую инфраструктуру. Также возникает чрезмерная нагрузка на базы данных и системы хранения, что приводит к значительному росту затрат на управление метаданными в таких сервисах как DynamoDB и S3.

Для решения этих проблем компания разработала и открыла исходный код инструментов xet-core и hf_xet, написанных на Rust и интегрированных с huggingface_hub. Новый подход фокусируется не только на дедупликации данных, но и на оптимизации их передачи по сети, хранения и общего опыта разработки.

Главной целью команды является обеспечение быстрого экспериментирования и эффективного сотрудничества для команд, работающих над моделями и датасетами.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

ИИ в промышленности: умные каски, инспекторы на 4-х ногах, двойники

Аналитический отчет McKinsey Global Institute говорит, что внедрение решений на базе искусственного интеллекта способно увеличить добавленную стоимость в глобальной промышленности на семь триллионов долларов уже к тридцатому году.  

ИИ в криминалистике: предсказания преступлений, роботы-патрульные

Согласно данным Международной ассоциации криминалистов, внедрение технологий искусственного интеллекта повышает эффективность раскрытия сложных преступлений на тридцать-сорок процентов. Давайте разберёмся, как это происходит.

ИИ в медицине: прорывы, о которых молчат врачи

Трансформация медицины с помощью искусственного интеллекта — это не просто технологический скачок. А фундаментальное изменение подхода к лечению и диагностике заболеваний. Исследования показывают, что глобальный рынок искусственного интеллекта в здравоохранении вырастет до ста сорока пяти миллиардов долларов к тридцатому году. Для понимания роста - в двадцать четвертом году этот рынок составлял тридцать миллиардов долларов. То есть это рост почти в пять раз за шесть лет! Давайте разберемся, что стоит за этими цифрами.

YouTube предлагает бесплатную музыку от ИИ

YouTube запускает революционную функцию, позволяющую креаторам создавать уникальную инструментальную музыку с помощью искусственного интеллекта для своих видео. Об этом компания сообщила в обновлении на своем канале Creator Insider.

США готовы оштрафовать TSMC на $1 млрд за сотрудничество с Huawei

Крупнейшему в мире производителю микросхем Taiwan Semiconductor Manufacturing Company (TSMC) грозит штраф в размере $1 млрд или более по итогам расследования о нарушении экспортного контроля США. Причиной стало обнаружение чипов компании в AI-процессорах Huawei, сообщает Reuters.