Post Thumbnail

OpenAI-Modelle bewiesen Überlegenheit bei mathematischen Aufgaben

Zum ersten Mal wurde ein umfangreicher Test ihrer Fähigkeiten an neuen mathematischen Olympiadeaufgaben durchgeführt, und der erste Teil der prestigeträchtigen American Invitational Mathematics Examination (AIME) wurde zur Plattform für den „Wettbewerb“.

Der Test umfasste 15 Aufgaben, die den KI-Modellen jeweils viermal vorgelegt wurden, um zuverlässige Ergebnisse zu erhalten. Das Bewertungssystem basierte auf einem Farbschema: Grün bedeutete erfolgreiche Lösung in allen vier Versuchen, Gelb – ein bis drei erfolgreiche Versuche, Rot – vollständiges Fehlen korrekter Lösungen.

Die Ergebnisse waren unerwartet. Die OpenAI-Modelle zeigten eine deutliche Überlegenheit gegenüber der Konkurrenz, einschließlich des vielbeachteten chinesischen Modells DeepSeek R1. Besonders beeindruckende Ergebnisse zeigte das o3-mini-Modell von OpenAI mit einer Genauigkeit von 78,33%, obwohl dies niedriger ist als die zuvor gemeldeten 87,3% bei den Tests des Vorjahres.

Interessanterweise verbesserte das o1-Modell von OpenAI sogar seine Leistung im Vergleich zum Vorjahr und steigerte die Genauigkeit von 74,4% auf 76,67%. Währenddessen zeigte DeepSeek R1 einen deutlichen Effizienzrückgang – von 79,8% im Vorjahr auf 65% bei neuen Aufgaben. Noch dramatischer war der Leistungsabfall der destillierten Version R1-Qwen-14b – von 69,7% auf 50%.

Besondere Aufmerksamkeit verdient das Modell Claude 3.6 Sonnet, das unerwartet extrem niedrige Ergebnisse zeigte und praktisch keine Aufgabe „out of the box“ lösen konnte.

Wichtig ist zu bemerken, dass später mindestens drei Aufgaben aus dem Test öffentlich im Internet verfügbar gefunden wurden, was die Reinheit des Experiments beeinflusst haben könnte. Dennoch liefern die erhaltenen Ergebnisse interessanten Stoff zum Nachdenken über die Fähigkeit verschiedener KI-Modelle zur Verallgemeinerung und ihre Widerstandsfähigkeit gegen Überanpassung.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.

Latest News

YouTube bietet kostenlose KI-generierte Musik an

YouTube startet eine revolutionäre Funktion, die es Erstellern ermöglicht, mithilfe künstlicher Intelligenz einzigartige Instrumentalmusik für ihre Videos zu erstellen. Das Unternehmen teilte dies in einem Update auf seinem Creator Insider-Kanal mit.

USA bereit, TSMC mit 1 Milliarde Dollar für Zusammenarbeit mit Huawei zu bestrafen

Dem weltweit größten Chiphersteller Taiwan Semiconductor Manufacturing Company (TSMC) droht eine Geldstrafe in Höhe von 1 Milliarde Dollar oder mehr nach Abschluss einer Untersuchung über Verstöße gegen US-Exportkontrollen. Der Grund war die Entdeckung von Chips des Unternehmens in KI-Prozessoren von Huawei, berichtet Reuters.

Google startet Gemini für Unternehmensanwender

Google hat die Einführung von Gemini in Android Studio für Unternehmen angekündigt - einen neuen Abonnementdienst, der die Entwicklung von Unternehmensanwendungen vereinfachen soll. Die Ankündigung erfolgte auf der Google Cloud Next 2025 Konferenz in Las Vegas und zielt darauf ab, die Position des Unternehmens im Unternehmenssektor zu stärken.

OpenAI startet Benchmark-Programm Pioneers Program

OpenAI hat die Einführung eines ambitionierten Pioneers Program angekündigt, das darauf abzielt, grundlegend neue Standards für die Bewertung künstlicher Intelligenz zu schaffen. Das Unternehmen beabsichtigt, ein System zur Prüfung von KI-Modellen zu entwickeln, das ihre tatsächliche Wirksamkeit in verschiedenen Berufsbereichen besser widerspiegelt.

China veranstaltet ersten Roboter-Marathon der Geschichte

Peking bereitet sich darauf vor, in die Geschichte der Weltrobotik einzugehen: Am 13. April 2025 findet in der chinesischen Hauptstadt der weltweit erste Halbmarathon mit anthropomorphen Robotern statt. Bei diesem beispiellosen Ereignis werden Dutzende menschenähnliche Maschinen zusammenkommen, die eine Strecke von 21 Kilometern zurücklegen müssen.