Post Thumbnail

CodeClash zeigte riesige Kluft zwischen KI und menschlichem Programmierer

CodeClash wurde vorgestellt. Dies ist ein neuer Benchmark zur Bewertung von Programmierfähigkeiten bei großen Sprachmodellen. Und er zeigte: die Kluft zum menschlichen Niveau ist enorm.

Die Autoren bemerkten ein fundamentales Problem aktueller Benchmarks. Sie sind an konkrete, klar formulierte Aufgaben gebunden. Nämlich an das Beheben bestimmter Fehler oder Schreiben punktueller Tests. Jedoch beschäftigen sich echte Programmierer nicht den ganzen Tag mit dem Lösen isolierter Aufgaben.

So entstand CodeClash. Ein Benchmark, in dem große Sprachmodelle in mehrrundigen Turnieren um die Erstellung der besten Codebasis zur Erreichung eines Ziels konkurrieren. In diesem Fall am Beispiel von 6 Spielen, aber im Allgemeinen kann es alles sein, wo man Simulationen machen und Qualität messen kann. Das heißt, nicht das Modell selbst spielt, sondern der Code, den es schreibt und verbessert.

Jede Runde verläuft in 2 Phasen: Agenten bearbeiten ihren Code, dann konkurrieren ihre Codebasen miteinander. Gewinner werden basierend auf Kriterien des jeweiligen Spiels bestimmt. Jede Runde führt 1000 Spiele durch.

Und dann beginnen traurige Ergebnisse. Die Kluft zum menschlichen Niveau erwies sich als erheblich. Die Autoren nahmen die Top-Lösung für eines der Spiele namens gigachad. Das Modell Claude Sonnet 4.5 gewann keine einzige von 150 Runden dagegen. Das sind 0 von 37,5 Tausend Simulationen. Dabei blieb der menschliche Bot während aller Runden unverändert, er wurde nicht angepasst.

Es stellt sich heraus, dass Sprachmodelle isolierte Aufgaben gut lösen. Aber wenn es ums echte Codeschreiben geht, das konkurrieren und sich verbessern muss – verlieren sie glattweg gegen den Menschen.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.
Latest News
Google entdeckte 3 Viren, die KI zur Verstärkung von Angriffen nutzen

Google entdeckte 3 Viren der neuen Generation, die sich heimlich mit KI-Modellen verbinden, um Angriffe zu verstärken. Dies berichtete die Google Threat Intelligence Group-Abteilung.

Microsoft entdeckte Schwachstellen von KI-Agenten für Manipulation in Simulation

Microsoft schuf eine Simulationsumgebung zum Testen von KI-Agenten - und entdeckte unerwar­tete Schwächen. Die Studie, durchgeführt gemeinsam mit der University of Arizona, zeigte, dass aktuelle Agentenmodelle anfällig für Manipulation sind.

CodeClash zeigte riesige Kluft zwischen KI und menschlichem Programmierer

CodeClash wurde vorgestellt. Dies ist ein neuer Benchmark zur Bewertung von Programmierfähigkeiten bei großen Sprachmodellen. Und er zeigte: die Kluft zum menschlichen Niveau ist enorm.

Michael Burry setzte 1,1 Milliarden Dollar gegen Nvidia und Palantir

Michael Burry - das ist ein legendärer Investor, der die Hypothekenkrise 2008 voraussagte. Und jetzt macht er wieder einen lauten Zug. Michael setzte 1,1 Milliarden Dollar in Put-Optionen gegen 2 große Unternehmen aus dem KI-Sektor. Das sind Nvidia und Palantir.

XPeng stellte ersten weiblichen humanoiden Roboter der Welt vor

Der chinesische Elektroautohersteller XPeng stellte den humanoiden Roboter der neuen Generation IRON vor. Und dies ist der erste weibliche Humanoide!