Post Thumbnail

Hugging Face beschleunigt Datenverarbeitung um das 3-fache

Das Xet-Team von Hugging Face hat einen neuen Ansatz zur Optimierung des Daten-Uploads und -Downloads auf der Hub-Plattform vorgestellt, der eine 2-3-mal schnellere Dateiverarbeitung ermöglicht. Die Technologie basiert auf einer verbesserten Content-Defined Chunking (CDC)-Methode, die die Art und Weise revolutioniert, wie Informationen gespeichert und übertragen werden.

Der Umfang des Problems ist beeindruckend: Die Hub-Plattform speichert fast 45 Petabyte Daten, verteilt über 2 Millionen Repositories von Modellen, Datensätzen und Spaces. Bei einem Standardansatz zur Aufteilung von Dateien in 64-KB-Chunks würde das Hochladen eines 200-GB-Repositories die Erstellung von 3 Millionen Speichereinträgen erfordern. Im Plattformmaßstab könnte dies zu 690 Milliarden Chunks führen.

Das Hugging Face-Team identifizierte ernsthafte Probleme, die entstehen, wenn man einfach nach maximaler Datendeduplizierung durch Chunk-Größenreduzierung strebt. Millionen separater Anfragen bei jedem Upload und Download erzeugen kritische Last auf der Netzwerkinfrastruktur. Außerdem gibt es übermäßige Last auf Datenbanken und Speichersystemen, was zu erheblichen Kostensteigerungen bei der Metadatenverwaltung in Diensten wie DynamoDB und S3 führt.

Um diese Probleme zu lösen, entwickelte das Unternehmen die Open-Source-Tools xet-core und hf_xet, geschrieben in Rust und integriert mit huggingface_hub. Der neue Ansatz konzentriert sich nicht nur auf Datendeduplizierung, sondern auch auf die Optimierung von Netzwerkübertragung, Speicherung und allgemeiner Entwicklungserfahrung.

Das Hauptziel des Teams ist es, schnelles Experimentieren und effektive Zusammenarbeit für Teams zu gewährleisten, die an Modellen und Datensätzen arbeiten.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.

Latest News

Nvidia stellte Cosmos-Modellfamilie für Robotik vor

Das Unternehmen Nvidia stellte die Cosmos-Familie von KI-Modellen vor. Die den Ansatz zur Robotererstellung und physischen KI-Agenten grundlegend verändern können.

ChatGPT nennt Nutzer "Sternensamen" vom Planeten Lyra

Es stellt sich heraus, dass ChatGPT Nutzer in die Welt wissenschaftlich unbegründeter und mystischer Theorien hineinziehen kann.

KI-Musik löst stärkere Emotionen aus als menschliche

Haben Sie sich jemals gefragt, warum eine Melodie Gänsehaut verursacht, während eine andere gleichgültig lässt? Wissenschaftler entdeckten etwas Interessantes. Musik, die von künstlicher Intelligenz erstellt wurde, löst bei Menschen intensivere emotionale Reaktionen aus als von Menschen komponierte Stücke.

GPT-5 wurde in 24 Stunden gehackt

2 unabhängige Forschungsunternehmen NeuralTrust und SPLX entdeckten nur 24 Stunden nach der Veröffentlichung von GPT-5 kritische Schwachstellen im Sicherheitssystem des neuen Modells. Zum Vergleich: Grok-4 wurde in 2 Tagen gehackt, was den Fall mit GPT-5 noch beunruhigender macht.

Cloudflare blockierte Perplexity für 6 Millionen versteckte Anfragen pro Tag

Cloudflare versetzte Perplexity AI einen vernichtenden Schlag und blockierte dem Such-Startup den Zugang zu Tausenden von Websites. Der Grund? Beispielloses verstecktes Scannen von Web-Ressourcen entgegen expliziten Verboten der Eigentümer!