Post Thumbnail

Neuer Benchmark zeigte KI-Versagen bei Olympiade-Programmieraufgaben

Ein neuer Benchmark LiveCodeBench Pro zur Bewertung der Programmierfähigkeiten künstlicher Intelligenz ist erschienen. Link in der Beschreibung. Er umfasst die schwierigsten und neuesten Aufgaben von beliebten Wettbewerben. Internationale Informatik-Olympiade und Weltmeisterschaft im Programmieren. Die Aufgaben wurden von den Gewinnern und Preisträgern dieser Wettbewerbe selbst markiert.

Die Ergebnisse zeigen ein interessantes Bild. Selbst das beste Modell o4-mini-high erreicht nur eine Bewertung von 2100. Zum Vergleich: Großmeister-Programmierer haben etwa 2700. Die Lücke bleibt riesig.

Modelle können nur mit einfachen und einigen mittleren Aufgaben zurechtkommen. Bei wirklich schwierigen Aufgaben zeigen alle Sprachmodelle absolute 0. Sie lösen Aufgaben in Kombinatorik und dynamischer Programmierung recht gut. Aber in Spieltheorie und Arbeit mit Grenzfällen ist ihr Niveau wie das eines durchschnittlichen Experten oder sogar Schülers.

Neugierig ist der Unterschied in Fehlertypen. Menschen machen normalerweise Implementierungsfehler wegen Unaufmerksamkeit oder Syntaxproblemen. Bei KI-Modellen entstehen Probleme häufiger auf der Ebene der Lösungsidee selbst. Also ist vorerst kein Ersatz für Olympiade-Programmierer in Sicht.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.

Latest News

Samsung sucht Ersatz für Google Gemini für Galaxy S26

Samsung Electronics, einer der führenden Hersteller mobiler Geräte, sucht aktiv nach Alternativen zu Google Gemini für seine zukünftige Galaxy S26-Reihe. Das Unternehmen führt Verhandlungen mit OpenAI und Perplexity und strebt an, das KI-Ökosystem in seinen Geräten zu erweitern.

Wie Sprachmodelle Wissen durch Zufallszahlen übertragen

Haben Sie sich jemals gefragt, ob Zahlen Wissen speichern können? Wissenschaftler entdeckten ein erstaunliches Phänomen. Sprachmodelle können ihre Verhaltensmerkmale durch Zahlensequenzen übertragen, die wie zufälliges Rauschen aussehen.

Alibaba stellte smarte Brille Quark AI mit Snapdragon AR1-Chip vor

Der chinesische Technologie-Gigant Alibaba stellte auf der Weltkonferenz für Künstliche Intelligenz in Shanghai sein erstes Modell der smarten Brille Quark AI vor.

Warum fortgeschrittene KI-Modelle sich bei langen Überlegungen selbst verwirren

Sie geben einem klugen Menschen eine komplexe Aufgabe und erwarten, dass je länger er nachdenkt, desto genauer die Antwort wird. Logisch, oder? Genau so sind wir gewohnt, auch über die Arbeit künstlicher Intelligenz zu denken. Aber eine neue Studie von Anthropic zeigt, dass die Realität viel interessanter ist.

Z.AI stellte GLM-4.5 mit 355 Milliarden Parametern und Open Source vor

Lernen Sie das neue technologische Schwergewicht kennen! Das Unternehmen Z.AI stellte das offene Sprachmodell GLM-4.5 vor, das bereit ist, westliche Giganten nicht nur mit Fähigkeiten, sondern auch mit Zugänglichkeit herauszufordern.