Mein Name ist AIvengo und ich präsentiere Ihnen tägliche Nachrichten über künstliche Intelligenz
AIvengo > Bewertungen > Hugging Face beschleunigt Datenverarbeitung um das 3-fache
Hugging Face beschleunigt Datenverarbeitung um das 3-fache
Das Xet-Team von Hugging Face hat einen neuen Ansatz zur Optimierung des Daten-Uploads und -Downloads auf der Hub-Plattform vorgestellt, der eine 2-3-mal schnellere Dateiverarbeitung ermöglicht. Die Technologie basiert auf einer verbesserten Content-Defined Chunking (CDC)-Methode, die die Art und Weise revolutioniert, wie Informationen gespeichert und übertragen werden.
Der Umfang des Problems ist beeindruckend: Die Hub-Plattform speichert fast 45 Petabyte Daten, verteilt über 2 Millionen Repositories von Modellen, Datensätzen und Spaces. Bei einem Standardansatz zur Aufteilung von Dateien in 64-KB-Chunks würde das Hochladen eines 200-GB-Repositories die Erstellung von 3 Millionen Speichereinträgen erfordern. Im Plattformmaßstab könnte dies zu 690 Milliarden Chunks führen.
Das Hugging Face-Team identifizierte ernsthafte Probleme, die entstehen, wenn man einfach nach maximaler Datendeduplizierung durch Chunk-Größenreduzierung strebt. Millionen separater Anfragen bei jedem Upload und Download erzeugen kritische Last auf der Netzwerkinfrastruktur. Außerdem gibt es übermäßige Last auf Datenbanken und Speichersystemen, was zu erheblichen Kostensteigerungen bei der Metadatenverwaltung in Diensten wie DynamoDB und S3 führt.
Um diese Probleme zu lösen, entwickelte das Unternehmen die Open-Source-Tools xet-core und hf_xet, geschrieben in Rust und integriert mit huggingface_hub. Der neue Ansatz konzentriert sich nicht nur auf Datendeduplizierung, sondern auch auf die Optimierung von Netzwerkübertragung, Speicherung und allgemeiner Entwicklungserfahrung.
Das Hauptziel des Teams ist es, schnelles Experimentieren und effektive Zusammenarbeit für Teams zu gewährleisten, die an Modellen und Datensätzen arbeiten.
Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.
Das chinesische Unternehmen UBTech gewann einen Vertrag über $37 Millionen. Und wird menschenähnliche Roboter Walker S2 zum Dienst an der Grenze Chinas zu Vietnam schicken. South China Morning Post berichtet, dass die Roboter mit Touristen und Personal interagieren, logistische Operationen durchführen, Fracht inspizieren und das Gelände patrouillieren werden. Und bezeichnenderweise — sie können selbstständig ihre Batterie wechseln.
Anthropic enthüllte versehentlich einem Nutzer die "Seele" der künstlichen Intelligenz. Und das ist keine Metapher. Das ist ein ganz konkretes internes Dokument.
Jensen Huang verkündete innerhalb von Nvidia eine totale Mobilmachung unter dem Banner der künstlichen Intelligenz. Und das ist keine Empfehlung mehr. Das ist eine Forderung.
Eine gemeinsame Studie der Stanford University und des Center for Democracy and Technology zeigte ein beunruhigendes Bild. Chatbots mit künstlicher Intelligenz stellen ein ernsthaftes Risiko für Menschen mit Essstörungen dar. Wissenschaftler warnen, dass neuronale Netze schädliche Ratschläge zu Diäten verteilen. Sie schlagen Wege vor, die Störung zu verbergen und generieren "inspirierenden Abnehm-Content", der das Problem verschlimmert.
Das Startup OpenAGI veröffentlichte das Modell Lux zur Computersteuerung und behauptet, dass dies ein Durchbruch ist. Nach Benchmarks überholt das Modell um eine ganze Generation Analoga von Google, OpenAI und Anthropic. Außerdem arbeitet es schneller. Etwa 1 Sekunde pro Schritt statt 3 Sekunden bei Konkurrenten. Und 10 Mal günstiger in den Kosten pro Verarbeitung von 1 Token.