Mein Name ist AIvengo und ich präsentiere Ihnen tägliche Nachrichten über künstliche Intelligenz
Hugging Face beschleunigt Datenverarbeitung um das 3-fache
Das Xet-Team von Hugging Face hat einen neuen Ansatz zur Optimierung des Daten-Uploads und -Downloads auf der Hub-Plattform vorgestellt, der eine 2-3-mal schnellere Dateiverarbeitung ermöglicht. Die Technologie basiert auf einer verbesserten Content-Defined Chunking (CDC)-Methode, die die Art und Weise revolutioniert, wie Informationen gespeichert und übertragen werden.
Der Umfang des Problems ist beeindruckend: Die Hub-Plattform speichert fast 45 Petabyte Daten, verteilt über 2 Millionen Repositories von Modellen, Datensätzen und Spaces. Bei einem Standardansatz zur Aufteilung von Dateien in 64-KB-Chunks würde das Hochladen eines 200-GB-Repositories die Erstellung von 3 Millionen Speichereinträgen erfordern. Im Plattformmaßstab könnte dies zu 690 Milliarden Chunks führen.
Das Hugging Face-Team identifizierte ernsthafte Probleme, die entstehen, wenn man einfach nach maximaler Datendeduplizierung durch Chunk-Größenreduzierung strebt. Millionen separater Anfragen bei jedem Upload und Download erzeugen kritische Last auf der Netzwerkinfrastruktur. Außerdem gibt es übermäßige Last auf Datenbanken und Speichersystemen, was zu erheblichen Kostensteigerungen bei der Metadatenverwaltung in Diensten wie DynamoDB und S3 führt.
Um diese Probleme zu lösen, entwickelte das Unternehmen die Open-Source-Tools xet-core und hf_xet, geschrieben in Rust und integriert mit huggingface_hub. Der neue Ansatz konzentriert sich nicht nur auf Datendeduplizierung, sondern auch auf die Optimierung von Netzwerkübertragung, Speicherung und allgemeiner Entwicklungserfahrung.
Das Hauptziel des Teams ist es, schnelles Experimentieren und effektive Zusammenarbeit für Teams zu gewährleisten, die an Modellen und Datensätzen arbeiten.
Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.
YouTube startet eine revolutionäre Funktion, die es Erstellern ermöglicht, mithilfe künstlicher Intelligenz einzigartige Instrumentalmusik für ihre Videos zu erstellen. Das Unternehmen teilte dies in einem Update auf seinem Creator Insider-Kanal mit.
Dem weltweit größten Chiphersteller Taiwan Semiconductor Manufacturing Company (TSMC) droht eine Geldstrafe in Höhe von 1 Milliarde Dollar oder mehr nach Abschluss einer Untersuchung über Verstöße gegen US-Exportkontrollen. Der Grund war die Entdeckung von Chips des Unternehmens in KI-Prozessoren von Huawei, berichtet Reuters.
Google hat die Einführung von Gemini in Android Studio für Unternehmen angekündigt - einen neuen Abonnementdienst, der die Entwicklung von Unternehmensanwendungen vereinfachen soll. Die Ankündigung erfolgte auf der Google Cloud Next 2025 Konferenz in Las Vegas und zielt darauf ab, die Position des Unternehmens im Unternehmenssektor zu stärken.
OpenAI hat die Einführung eines ambitionierten Pioneers Program angekündigt, das darauf abzielt, grundlegend neue Standards für die Bewertung künstlicher Intelligenz zu schaffen. Das Unternehmen beabsichtigt, ein System zur Prüfung von KI-Modellen zu entwickeln, das ihre tatsächliche Wirksamkeit in verschiedenen Berufsbereichen besser widerspiegelt.
Peking bereitet sich darauf vor, in die Geschichte der Weltrobotik einzugehen: Am 13. April 2025 findet in der chinesischen Hauptstadt der weltweit erste Halbmarathon mit anthropomorphen Robotern statt. Bei diesem beispiellosen Ereignis werden Dutzende menschenähnliche Maschinen zusammenkommen, die eine Strecke von 21 Kilometern zurücklegen müssen.