Hugging Face ускоряет работу с данными в 3 раза
Команда Xet компании Hugging Face представила новый подход к оптимизации загрузки и скачивания данных на платформе Hub, который позволяет ускорить работу с файлами в 2-3 раза. В основе технологии лежит усовершенствованный метод контентно-определяемого разбиения данных (CDC), который революционно меняет способ хранения и передачи информации.
Масштаб проблемы впечатляет: на платформе Hub хранится почти 45 петабайт данных, распределенных по 2 миллионам репозиториев моделей, датасетов и пространств. При стандартном подходе к разбиению файлов на чанки размером 64 КБ, загрузка репозитория объемом 200 ГБ потребовала бы создания 3 миллионов записей в системе хранения. В масштабах всей платформы это могло бы привести к появлению 690 миллиардов чанков.
Команда Hugging Face выявила серьезные проблемы, возникающие при простом стремлении к максимальной дедупликации данных через уменьшение размера чанков. Миллионы отдельных запросов при каждой загрузке и скачивании создают критическую нагрузку на сетевую инфраструктуру. Также возникает чрезмерная нагрузка на базы данных и системы хранения, что приводит к значительному росту затрат на управление метаданными в таких сервисах как DynamoDB и S3.
Для решения этих проблем компания разработала и открыла исходный код инструментов xet-core и hf_xet, написанных на Rust и интегрированных с huggingface_hub. Новый подход фокусируется не только на дедупликации данных, но и на оптимизации их передачи по сети, хранения и общего опыта разработки.
Главной целью команды является обеспечение быстрого экспериментирования и эффективного сотрудничества для команд, работающих над моделями и датасетами.
Почитать из последнего
Более 30 000 врачей и юристов обучают нейросети делать их работу
Представьте картину: журналист с 20-летним стажем, которого выкинули в прошлом году, сидит и правит статьи, которые создал ИИ. 20-30 часов в неделю. За деньги. Чтобы машина научилась писать ещё лучше. Абсурд? Добро пожаловать в новую реальность белых воротничков.
Из-за ИИ теоретическая физика исчезнет через 10 лет
Физик-теоретик и популяризатор науки Сабина Хоссенфельдер, выдала интересный прогноз. Она считает, что через 3 года научные исследования в привычном виде перестанут существовать. А через 10 лет теоретическая физика как область человеческой деятельности может практически закончиться. Для решения задач будет достаточно просто купить вычислительное время нейросети. Звучит как антиутопия? Только вот процесс уже пошёл.
Nvidia и Siemens превратят завод в гигантского робота с ИИ
Глава Nvidia Дженсен Хуанг на выставке CES выдал очень интересную фразу, цитирую: "Эти производственные предприятия, по сути, станут гигантскими роботами". Так Nvidia и Siemens анонсировали создание Industrial AI Operating System. Платформы, которая внедрит ИИ во всю цепочку промышленного производства. От проектирования до логистики. Завод будущего не просто автоматизирован — он думает сам.
Крёстный отец SaaS уволил продажников и заменил их ИИ за полгода
Джейсон Лемкин, которого называют крёстным отцом SaaS и основателем сообщества SaaStr, публично заявил что больше не будет нанимать людей в отдел продаж своей компании. Вместо живых менеджеров теперь работают агенты на основе ИИ. По его словам, переход занял меньше года.
Создатель Signal запустил ИИ-ассистента с полной анонимностью
Создатель мессенджера Signal Мокси Марлинспайк, решил сделать с чат-ботами то же что сделал с мессенджерами. Добавить слой анонимности который не пробьёшь. Его новый проект Confer с открытым исходным кодом гарантирует что данные пользователей будут недоступны вообще никому. Ни оператору платформы, ни хакерам, ни правоохранителям, ни любой другой стороне кроме самих владельцев.