CodeClash zeigte riesige Kluft zwischen KI und menschlichem Programmierer

Post Thumbnail

CodeClash wurde vorgestellt. Dies ist ein neuer Benchmark zur Bewertung von Programmierfähigkeiten bei großen Sprachmodellen. Und er zeigte: die Kluft zum menschlichen Niveau ist enorm.

Die Autoren bemerkten ein fundamentales Problem aktueller Benchmarks. Sie sind an konkrete, klar formulierte Aufgaben gebunden. Nämlich an das Beheben bestimmter Fehler oder Schreiben punktueller Tests. Jedoch beschäftigen sich echte Programmierer nicht den ganzen Tag mit dem Lösen isolierter Aufgaben.

So entstand CodeClash. Ein Benchmark, in dem große Sprachmodelle in mehrrundigen Turnieren um die Erstellung der besten Codebasis zur Erreichung eines Ziels konkurrieren. In diesem Fall am Beispiel von 6 Spielen, aber im Allgemeinen kann es alles sein, wo man Simulationen machen und Qualität messen kann. Das heißt, nicht das Modell selbst spielt, sondern der Code, den es schreibt und verbessert.

Jede Runde verläuft in 2 Phasen: Agenten bearbeiten ihren Code, dann konkurrieren ihre Codebasen miteinander. Gewinner werden basierend auf Kriterien des jeweiligen Spiels bestimmt. Jede Runde führt 1000 Spiele durch.

Und dann beginnen traurige Ergebnisse. Die Kluft zum menschlichen Niveau erwies sich als erheblich. Die Autoren nahmen die Top-Lösung für eines der Spiele namens gigachad. Das Modell Claude Sonnet 4.5 gewann keine einzige von 150 Runden dagegen. Das sind 0 von 37,5 Tausend Simulationen. Dabei blieb der menschliche Bot während aller Runden unverändert, er wurde nicht angepasst.

Es stellt sich heraus, dass Sprachmodelle isolierte Aufgaben gut lösen. Aber wenn es ums echte Codeschreiben geht, das konkurrieren und sich verbessern muss – verlieren sie glattweg gegen den Menschen.

Почитать из последнего
UBTech wird Roboter Walker S2 für $37 Mio. an die Grenze Chinas schicken
Das chinesische Unternehmen UBTech gewann einen Vertrag über $37 Millionen. Und wird menschenähnliche Roboter Walker S2 zum Dienst an der Grenze Chinas zu Vietnam schicken. South China Morning Post berichtet, dass die Roboter mit Touristen und Personal interagieren, logistische Operationen durchführen, Fracht inspizieren und das Gelände patrouillieren werden. Und bezeichnenderweise — sie können selbstständig ihre Batterie wechseln.
Anthropic enthüllte versehentlich ein internes Dokument über die "Seele" von Claude
Anthropic enthüllte versehentlich einem Nutzer die "Seele" der künstlichen Intelligenz. Und das ist keine Metapher. Das ist ein ganz konkretes internes Dokument.
Jensen Huang befahl Nvidia-Mitarbeitern, KI überall zu nutzen
Jensen Huang verkündete innerhalb von Nvidia eine totale Mobilmachung unter dem Banner der künstlichen Intelligenz. Und das ist keine Empfehlung mehr. Das ist eine Forderung.
KI-Chatbots generieren Inhalte, die Essstörungen verschlimmern
Eine gemeinsame Studie der Stanford University und des Center for Democracy and Technology zeigte ein beunruhigendes Bild. Chatbots mit künstlicher Intelligenz stellen ein ernsthaftes Risiko für Menschen mit Essstörungen dar. Wissenschaftler warnen, dass neuronale Netze schädliche Ratschläge zu Diäten verteilen. Sie schlagen Wege vor, die Störung zu verbergen und generieren "inspirierenden Abnehm-Content", der das Problem verschlimmert.
OpenAGI veröffentlichte das Modell Lux, das Google und OpenAI überholt
Das Startup OpenAGI veröffentlichte das Modell Lux zur Computersteuerung und behauptet, dass dies ein Durchbruch ist. Nach Benchmarks überholt das Modell um eine ganze Generation Analoga von Google, OpenAI und Anthropic. Außerdem arbeitet es schneller. Etwa 1 Sekunde pro Schritt statt 3 Sekunden bei Konkurrenten. Und 10 Mal günstiger in den Kosten pro Verarbeitung von 1 Token.