CodeClash zeigte riesige Kluft zwischen KI und menschlichem Programmierer

CodeClash wurde vorgestellt. Dies ist ein neuer Benchmark zur Bewertung von Programmierfähigkeiten bei großen Sprachmodellen. Und er zeigte: die Kluft zum menschlichen Niveau ist enorm.

Die Autoren bemerkten ein fundamentales Problem aktueller Benchmarks. Sie sind an konkrete, klar formulierte Aufgaben gebunden. Nämlich an das Beheben bestimmter Fehler oder Schreiben punktueller Tests. Jedoch beschäftigen sich echte Programmierer nicht den ganzen Tag mit dem Lösen isolierter Aufgaben.

So entstand CodeClash. Ein Benchmark, in dem große Sprachmodelle in mehrrundigen Turnieren um die Erstellung der besten Codebasis zur Erreichung eines Ziels konkurrieren. In diesem Fall am Beispiel von 6 Spielen, aber im Allgemeinen kann es alles sein, wo man Simulationen machen und Qualität messen kann. Das heißt, nicht das Modell selbst spielt, sondern der Code, den es schreibt und verbessert.

Jede Runde verläuft in 2 Phasen: Agenten bearbeiten ihren Code, dann konkurrieren ihre Codebasen miteinander. Gewinner werden basierend auf Kriterien des jeweiligen Spiels bestimmt. Jede Runde führt 1000 Spiele durch.

Und dann beginnen traurige Ergebnisse. Die Kluft zum menschlichen Niveau erwies sich als erheblich. Die Autoren nahmen die Top-Lösung für eines der Spiele namens gigachad. Das Modell Claude Sonnet 4.5 gewann keine einzige von 150 Runden dagegen. Das sind 0 von 37,5 Tausend Simulationen. Dabei blieb der menschliche Bot während aller Runden unverändert, er wurde nicht angepasst.

Es stellt sich heraus, dass Sprachmodelle isolierte Aufgaben gut lösen. Aber wenn es ums echte Codeschreiben geht, das konkurrieren und sich verbessern muss – verlieren sie glattweg gegen den Menschen.