
Neuer Benchmark zeigte KI-Versagen bei Olympiade-Programmieraufgaben
Ein neuer Benchmark LiveCodeBench Pro zur Bewertung der Programmierfähigkeiten künstlicher Intelligenz ist erschienen. Link in der Beschreibung. Er umfasst die schwierigsten und neuesten Aufgaben von beliebten Wettbewerben. Internationale Informatik-Olympiade und Weltmeisterschaft im Programmieren. Die Aufgaben wurden von den Gewinnern und Preisträgern dieser Wettbewerbe selbst markiert.
Die Ergebnisse zeigen ein interessantes Bild. Selbst das beste Modell o4-mini-high erreicht nur eine Bewertung von 2100. Zum Vergleich: Großmeister-Programmierer haben etwa 2700. Die Lücke bleibt riesig.
Modelle können nur mit einfachen und einigen mittleren Aufgaben zurechtkommen. Bei wirklich schwierigen Aufgaben zeigen alle Sprachmodelle absolute 0. Sie lösen Aufgaben in Kombinatorik und dynamischer Programmierung recht gut. Aber in Spieltheorie und Arbeit mit Grenzfällen ist ihr Niveau wie das eines durchschnittlichen Experten oder sogar Schülers.
Neugierig ist der Unterschied in Fehlertypen. Menschen machen normalerweise Implementierungsfehler wegen Unaufmerksamkeit oder Syntaxproblemen. Bei KI-Modellen entstehen Probleme häufiger auf der Ebene der Lösungsidee selbst. Also ist vorerst kein Ersatz für Olympiade-Programmierer in Sicht.