Mein Name ist AIvengo und ich präsentiere Ihnen tägliche Nachrichten über künstliche Intelligenz
AIvengo > Bewertungen > Neuer Benchmark zeigte KI-Versagen bei Olympiade-Programmieraufgaben
Neuer Benchmark zeigte KI-Versagen bei Olympiade-Programmieraufgaben
Ein neuer Benchmark LiveCodeBench Pro zur Bewertung der Programmierfähigkeiten künstlicher Intelligenz ist erschienen. Link in der Beschreibung. Er umfasst die schwierigsten und neuesten Aufgaben von beliebten Wettbewerben. Internationale Informatik-Olympiade und Weltmeisterschaft im Programmieren. Die Aufgaben wurden von den Gewinnern und Preisträgern dieser Wettbewerbe selbst markiert.
Die Ergebnisse zeigen ein interessantes Bild. Selbst das beste Modell o4-mini-high erreicht nur eine Bewertung von 2100. Zum Vergleich: Großmeister-Programmierer haben etwa 2700. Die Lücke bleibt riesig.
Modelle können nur mit einfachen und einigen mittleren Aufgaben zurechtkommen. Bei wirklich schwierigen Aufgaben zeigen alle Sprachmodelle absolute 0. Sie lösen Aufgaben in Kombinatorik und dynamischer Programmierung recht gut. Aber in Spieltheorie und Arbeit mit Grenzfällen ist ihr Niveau wie das eines durchschnittlichen Experten oder sogar Schülers.
Neugierig ist der Unterschied in Fehlertypen. Menschen machen normalerweise Implementierungsfehler wegen Unaufmerksamkeit oder Syntaxproblemen. Bei KI-Modellen entstehen Probleme häufiger auf der Ebene der Lösungsidee selbst. Also ist vorerst kein Ersatz für Olympiade-Programmierer in Sicht.
Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.
Sie sind dem sicher schon begegnet. Brief von Kollegen, der perfekt aussieht: richtige Struktur, schöne Worte, professioneller Ton. Sie beginnen zu lesen — und verstehen, dass hinter all dieser Verpackung absolut nichts steckt. Keine Konkretheit, keine Lösungen, nur schön verpackte Leere. Herzlichen Glückwunsch: Sie sind gerade auf Workslop gestoßen.
Künstliche Intelligenz ist intelligenter als die meisten Menschen. Dieser Gedanke kommt fast jedem in den Sinn, der regelmäßig moderne Sprachmodelle nutzt. Und wissen Sie was? Dieser Gedanke basiert auf unserem Wahrnehmungsfehler.
OpenAI DevDay 2025 — wichtiges Ereignis in der Welt der künstlichen Intelligenz. Und das ist nicht einfach eine weitere Präsentation. Ich habe für Sie alle wichtigen Fakten, Funktionen, Meinungen gesammelt und Sie erfahren alles Interessanteste, was OpenAI-Chef Sam Altman erzählte.
Interessantes Konzept der KI-Wirtschaft wird in neuer Google DeepMind-Studie präsentiert. Link in der Beschreibung. Wissenschaftler analysierten sich schnell formierende Realität. In der KI-Agenten zu eigenständigen Wirtschaftsakteuren werden, fähig zu handeln, zu verhandeln und Wert zu schaffen ohne direkte menschliche Beteiligung. Und wenn dieser Prozess ohne angemessene Kontrolle bleibt, können autonome Systeme eigene parallele Wirtschaft bilden, eng verbunden mit der menschlichen. Was sowohl enorme Möglichkeiten als auch ernsthafte Risiken birgt.
Es stellt sich heraus, dass Oracle beeindruckendes Wachstum zeigt und traditionelle Cloud-Computing-Führer überholt. Und meisterhaft die KI-Welle zu seinem Vorteil nutzt.