
Das Hugging Face-Team präsentierte die ersten Ergebnisse des Open-R1-Projekts, das darauf abzielt, die Technologien der chinesischen künstlichen Intelligenz DeepSeek-R1 zu reproduzieren. Innerhalb einer Woche gelang es den Forschern, bedeutende Fortschritte beim Verständnis und der Replikation dieses fortschrittlichen Systems zu erzielen.
Ein wichtiger Erfolg war die erfolgreiche Reproduktion der Testergebnisse auf dem MATH-500-Benchmark. Die Forscher bestätigten die beeindruckenden Leistungen verschiedener Modellversionen: DeepSeek-R1-Distill-Qwen-32B erreichte eine Genauigkeit von 95,0 % im Vergleich zu den behaupteten 94,3 %, während die auf Llama-70B basierende Version 93,4 % gegenüber den offiziellen 94,5 % zeigte.
Während der Studie wurde eine einzigartige Eigenschaft von DeepSeek-R1 entdeckt – eine beispiellose Länge der generierten Antworten. Die Analyse der Verteilung im OpenThoughts-Datensatz zeigte, dass die durchschnittliche Antwortlänge etwa 6000 Token beträgt und in einigen Fällen 20.000 Token übersteigt. „Wenn man bedenkt, dass eine durchschnittliche Seite etwa 500 Wörter enthält und ein Token etwas kürzer als ein Wort ist, überschreiten viele Antworten einen Umfang von 10 Seiten“, merken die Forscher an.
Um die Transparenz der Forschung zu gewährleisten, erstellte das Hugging Face-Team eine offene Open-R1-Rangliste, wo die Community die Fortschritte bei der Reproduktion der Ergebnisse verfolgen kann. Besondere Aufmerksamkeit wird dem Problem des erheblichen GPU-Speicherbedarfs während des Trainings aufgrund der Notwendigkeit der Generierung langer Sequenzen gewidmet.
Das erst vor einer Woche gestartete Open-R1-Projekt vereinte die Bemühungen verschiedener Teams und der Entwicklergemeinschaft. Das Hauptziel bleibt die Reproduktion der Trainingspipeline und der synthetischen Daten von DeepSeek-R1, was ein besseres Verständnis der Funktionsprinzipien dieses fortschrittlichen künstlichen Intelligenz-Systems ermöglichen wird.
Diese Initiative zeigt einen wachsenden Trend zu Offenheit und Zusammenarbeit im Bereich KI, wo selbst die komplexesten technologischen Errungenschaften zum Gegenstand kollektiver Untersuchung und Reproduktion durch die globale Entwicklergemeinschaft werden.