Post Thumbnail

Hugging Face fordert DeepSeek heraus: Projekt Open-R1 enthüllt Geheimnisse der chinesischen KI

Das Hugging Face-Team präsentierte die ersten Ergebnisse des Open-R1-Projekts, das darauf abzielt, die Technologien der chinesischen künstlichen Intelligenz DeepSeek-R1 zu reproduzieren. Innerhalb einer Woche gelang es den Forschern, bedeutende Fortschritte beim Verständnis und der Replikation dieses fortschrittlichen Systems zu erzielen.

Ein wichtiger Erfolg war die erfolgreiche Reproduktion der Testergebnisse auf dem MATH-500-Benchmark. Die Forscher bestätigten die beeindruckenden Leistungen verschiedener Modellversionen: DeepSeek-R1-Distill-Qwen-32B erreichte eine Genauigkeit von 95,0 % im Vergleich zu den behaupteten 94,3 %, während die auf Llama-70B basierende Version 93,4 % gegenüber den offiziellen 94,5 % zeigte.

Während der Studie wurde eine einzigartige Eigenschaft von DeepSeek-R1 entdeckt – eine beispiellose Länge der generierten Antworten. Die Analyse der Verteilung im OpenThoughts-Datensatz zeigte, dass die durchschnittliche Antwortlänge etwa 6000 Token beträgt und in einigen Fällen 20.000 Token übersteigt. “Wenn man bedenkt, dass eine durchschnittliche Seite etwa 500 Wörter enthält und ein Token etwas kürzer als ein Wort ist, überschreiten viele Antworten einen Umfang von 10 Seiten”, merken die Forscher an.

Um die Transparenz der Forschung zu gewährleisten, erstellte das Hugging Face-Team eine offene Open-R1-Rangliste, wo die Community die Fortschritte bei der Reproduktion der Ergebnisse verfolgen kann. Besondere Aufmerksamkeit wird dem Problem des erheblichen GPU-Speicherbedarfs während des Trainings aufgrund der Notwendigkeit der Generierung langer Sequenzen gewidmet.

Das erst vor einer Woche gestartete Open-R1-Projekt vereinte die Bemühungen verschiedener Teams und der Entwicklergemeinschaft. Das Hauptziel bleibt die Reproduktion der Trainingspipeline und der synthetischen Daten von DeepSeek-R1, was ein besseres Verständnis der Funktionsprinzipien dieses fortschrittlichen künstlichen Intelligenz-Systems ermöglichen wird.

Diese Initiative zeigt einen wachsenden Trend zu Offenheit und Zusammenarbeit im Bereich KI, wo selbst die komplexesten technologischen Errungenschaften zum Gegenstand kollektiver Untersuchung und Reproduktion durch die globale Entwicklergemeinschaft werden.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.
Latest News
Amazon verwandelt Kuriere in Cyborgs mit KI-Smart-Brillen

Amazon beschloss, seine Kuriere in Cyborgs zu verwandeln. Nein, ernsthaft - das Unternehmen kündigte Smart-Brillen mit KI für Lieferanten an. Die Idee, laut E-Commerce-Giganten, ist es, den Fahrern die Hände freizugeben. Und sie davon zu befreien, ständig den Blick zwischen Telefon, Paket und Umgebung wechseln zu müssen.

OpenAI wird Charakter-Cameos zu Sora hinzufügen

OpenAI veröffentlichte die Entwicklungs-Roadmap für Sora, und wissen Sie was? Es scheint, das Unternehmen hat endlich erkannt, dass Videogenerierung nicht nur eine technologische Demonstration ist. Sondern ein Werkzeug, das Menschen wirklich nutzen müssen. Bill Peebles, Projektleiter, kündigte eine ganze Reihe von Updates an, und einige davon sind wirklich interessant.

Starcloud startet Satelliten mit KI im November für Rechenzentrum im Weltraum

Wissen Sie, wohin jetzt Rechenzentren für KI verlagert werden? In den Weltraum. Das Startup Starcloud, Teilnehmer am NVIDIA Inception-Programm, plant im November einen Satelliten mit KI in die Erdumlaufbahn zu starten. Und das ist nur der Anfang ihres ehrgeizigen Plans, Probleme mit Energieverbrauch und Kühlung von Rechenzentren auf der Erde zu lösen.

ChatGPT Atlas ist anfällig für Prompt-Injektionen und kann beim Phishing helfen

Ich erzählte davon, dass OpenAI den Browser ChatGPT Atlas veröffentlichte. Und hier haben die ersten Nutzer bereits ein ganzes Bündel von Problemen gefunden. Beginnen wir mit den Grundlagen. Der Browser hat keinen eingebauten Werbeblocker, keinen Lesemodus und keine Funktion zur Textübersetzung auf der Seite. Um einen Artikel nachzuerzählen oder zu übersetzen, muss man den Bot im Chat bitten.

China brach ASML-Lithographieanlage bei Versuch sie zu kopieren

Hier ist eine Geschichte darüber, wie Importsubstitution auf harte Realität stieß. China versuchte, eine ASML-Lithographieanlage der DUV-Kategorie zu zerlegen, um ihre Konstruktion zu studieren. Ergebnis? Sie beschädigten das System und wandten sich an ASML selbst mit der Bitte um Reparatur. Die Absurdität der Situation ist überwältigend.