OpenAI-Modelle bewiesen Überlegenheit bei mathematischen Aufgaben

Zum ersten Mal wurde ein umfangreicher Test ihrer Fähigkeiten an neuen mathematischen Olympiadeaufgaben durchgeführt, und der erste Teil der prestigeträchtigen American Invitational Mathematics Examination (AIME) wurde zur Plattform für den „Wettbewerb“.

Der Test umfasste 15 Aufgaben, die den KI-Modellen jeweils viermal vorgelegt wurden, um zuverlässige Ergebnisse zu erhalten. Das Bewertungssystem basierte auf einem Farbschema: Grün bedeutete erfolgreiche Lösung in allen vier Versuchen, Gelb – ein bis drei erfolgreiche Versuche, Rot – vollständiges Fehlen korrekter Lösungen.

Die Ergebnisse waren unerwartet. Die OpenAI-Modelle zeigten eine deutliche Überlegenheit gegenüber der Konkurrenz, einschließlich des vielbeachteten chinesischen Modells DeepSeek R1. Besonders beeindruckende Ergebnisse zeigte das o3-mini-Modell von OpenAI mit einer Genauigkeit von 78,33%, obwohl dies niedriger ist als die zuvor gemeldeten 87,3% bei den Tests des Vorjahres.

Interessanterweise verbesserte das o1-Modell von OpenAI sogar seine Leistung im Vergleich zum Vorjahr und steigerte die Genauigkeit von 74,4% auf 76,67%. Währenddessen zeigte DeepSeek R1 einen deutlichen Effizienzrückgang – von 79,8% im Vorjahr auf 65% bei neuen Aufgaben. Noch dramatischer war der Leistungsabfall der destillierten Version R1-Qwen-14b – von 69,7% auf 50%.

Besondere Aufmerksamkeit verdient das Modell Claude 3.6 Sonnet, das unerwartet extrem niedrige Ergebnisse zeigte und praktisch keine Aufgabe „out of the box“ lösen konnte.

Wichtig ist zu bemerken, dass später mindestens drei Aufgaben aus dem Test öffentlich im Internet verfügbar gefunden wurden, was die Reinheit des Experiments beeinflusst haben könnte. Dennoch liefern die erhaltenen Ergebnisse interessanten Stoff zum Nachdenken über die Fähigkeit verschiedener KI-Modelle zur Verallgemeinerung und ihre Widerstandsfähigkeit gegen Überanpassung.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.
Qualcomm begrüßt TSMC-Investition in Höhe von 100 Milliarden Dollar

Die Investition von Taiwan Semiconductor Manufacturing Co. (TSMC) in Höhe von 100 Milliarden Dollar zur Erweiterung der Produktion in den Vereinigten Staaten ist "eine großartige Nachricht", sagte Qualcomm-CEO Cristiano Amon in einem Interview mit CNBC am Dienstag, dem 4. März 2025. Seinen Angaben zufolge trägt dies zur Diversifizierung der Halbleiterproduktionsstandorte bei.

DuckDuckGo verstärkt die Integration generativer KI

Der private Suchdienst DuckDuckGo baut weiterhin seine Position im Bereich der generativen künstlichen Intelligenz aus. Laut einem am Donnerstag, dem 6. März 2025, veröffentlichten Blog-Beitrag gab das Unternehmen den Abschluss der Beta-Tests seiner Chat-Schnittstelle bekannt, die jetzt offiziell Duck.ai heißt und den umständlicheren Namen DuckDuckGo AI Chat aufgibt.

Digitaler Skandal bei der Los Angeles Times

Der Milliardär und Eigentümer der Los Angeles Times, Patrick Soon-Shiong, der ein neues KI-Tool zur Generierung gegensätzlicher Perspektiven zu Meinungsbeiträgen vorstellte, wusste nicht, dass das System weniger als 24 Stunden nach dem Start Pro-KKK-Argumente erstellt hatte — und das sogar noch Stunden nachdem die skandalösen KI-Kommentare von der Website der Publikation entfernt worden waren. Der Vorfall schuf ein enormes Hindernis für die Times, die danach strebt, alte Abonnenten zurückzugewinnen und neue durch innovative technologische Lösungen anzuziehen.

Google Shopping startet KI-Tool

Google hat die Einführung eines neuen KI-Tools für den Shopping-Tab angekündigt, das Benutzern helfen wird, Kleidung anhand ihrer verbalen Beschreibung zu finden. Die am Mittwoch, dem 5. März 2025, gemachte Ankündigung umfasst auch die Erweiterung der Funktionen von Augmented-Reality-Tools (AR) für Kosmetik und virtuelle Anprobe.

"Kann nicht mit Antworten zu Wahlen und politischen Persönlichkeiten helfen": Gemini

Der Technologieriese Google beschränkt weiterhin die Fähigkeiten seines KI-Assistenten Gemini im Bereich des politischen Diskurses, obwohl die Hauptkonkurrenten des Unternehmens, darunter OpenAI, Anthropic und Meta, ihre Chatbots in den letzten Monaten bereits für die Diskussion politisch sensibler Themen angepasst haben.