Hugging Face beschleunigt Datenverarbeitung um das 3-fache

Das Xet-Team von Hugging Face hat einen neuen Ansatz zur Optimierung des Daten-Uploads und -Downloads auf der Hub-Plattform vorgestellt, der eine 2-3-mal schnellere Dateiverarbeitung ermöglicht. Die Technologie basiert auf einer verbesserten Content-Defined Chunking (CDC)-Methode, die die Art und Weise revolutioniert, wie Informationen gespeichert und übertragen werden.

Der Umfang des Problems ist beeindruckend: Die Hub-Plattform speichert fast 45 Petabyte Daten, verteilt über 2 Millionen Repositories von Modellen, Datensätzen und Spaces. Bei einem Standardansatz zur Aufteilung von Dateien in 64-KB-Chunks würde das Hochladen eines 200-GB-Repositories die Erstellung von 3 Millionen Speichereinträgen erfordern. Im Plattformmaßstab könnte dies zu 690 Milliarden Chunks führen.

Das Hugging Face-Team identifizierte ernsthafte Probleme, die entstehen, wenn man einfach nach maximaler Datendeduplizierung durch Chunk-Größenreduzierung strebt. Millionen separater Anfragen bei jedem Upload und Download erzeugen kritische Last auf der Netzwerkinfrastruktur. Außerdem gibt es übermäßige Last auf Datenbanken und Speichersystemen, was zu erheblichen Kostensteigerungen bei der Metadatenverwaltung in Diensten wie DynamoDB und S3 führt.

Um diese Probleme zu lösen, entwickelte das Unternehmen die Open-Source-Tools xet-core und hf_xet, geschrieben in Rust und integriert mit huggingface_hub. Der neue Ansatz konzentriert sich nicht nur auf Datendeduplizierung, sondern auch auf die Optimierung von Netzwerkübertragung, Speicherung und allgemeiner Entwicklungserfahrung.

Das Hauptziel des Teams ist es, schnelles Experimentieren und effektive Zusammenarbeit für Teams zu gewährleisten, die an Modellen und Datensätzen arbeiten.