Post Thumbnail

Komplexester KI-Benchmark gestartet

Ein neuer Benchmark HUMANITY’S LAST EXAM wurde vorgestellt, der 3000 schwierige Fragen aus Dutzenden von Fachgebieten umfasst. Die Fragen wurden durch einen mehrstufigen Prozess ausgewählt.

Aus 13000 vorgeschlagenen Fragen, bei denen führende KI-Modelle schlechte Ergebnisse zeigten, wählten Experten 3000 aus und modifizierten sie für Qualität und Eindeutigkeit.

Die Autoren der besten 50 Fragen erhielten je 5000 Dollar. Die nächsten 500 Fragen brachten ihren Schöpfern je 500 Dollar. Die Benchmark-Führer – o 1 und R 1 zeigen Ergebnisse unter 10%. R 1 führt im Textteil, kann aber keine Bilder verarbeiten, die 10% des Tests ausmachen.

HUMANITY’S LAST EXAM soll die Grenzen der KI-Fähigkeiten bewerten, da bestehende Tests von Modellen mit über 90% Genauigkeit gemeistert wurden. Erste Ergebnisse sind schockierend: Selbst GPT-4 o zeigte nur 3,3% Genauigkeit, das beste Ergebnis liegt bei 9,4%.

Der Benchmark bewertet auch die Selbstkalibrierung der Modelle – ihre Fähigkeit, das Vertrauen in ihre eigenen Antworten einzuschätzen. R 1 führt mit deutlichem Vorsprung, aber der Kalibrierungsfehler übersteigt immer noch 80%.

Die Autoren erwarten, dass neue Modelle bis Jahresende 50% Genauigkeit bei diesem schwierigen neuen Test erreichen könnten. Offenbar reicht es aus, Menschen dafür zu bezahlen, wirklich schwierige Fragen zu entwickeln, um KI beim Testen zu schlagen.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.
Latest News
DeepSeek V3.1 verdoppelte Einlage auf 22 Tausend Dollar in 9 Handelstagen

Ich erzählte früher, dass der Benchmark Alpha Arena startete, wo beliebte Modelle mit echter Kryptowährung für echtes Geld handeln. Jedem wurden 10 Tausend Dollar gegeben und freigelassen.

KI-Ministerin Diella wird 83 digitale Kinder gebären

Ich erzählte bereits, dass Albaniens Premierminister einen neuen Minister vorstellte. Das war Diella. Ein KI-basierter Assistent. Ihr wurde die Überwachung öffentlicher Beschaffungen anvertraut, um Korruption zu reduzieren, sowie Arbeit zur Steigerung der Effizienz der Staatsführung. Sie hat einen Avatar - eine Frau in traditioneller albanischer Kleidung.

Sam Altman startet Merge Labs Gehirn-Computer-Schnittstelle ohne Operationen

Sam Altman bereitet sich darauf vor, das neue Startup Merge Labs anzukündigen. Und das ist eine Gehirn-Computer-Schnittstelle, die grundsätzlich anders funktioniert als Elon Musks Neuralink. Ohne Chirurgie und ohne Implantate im Schädel.

Chinesischer Humanoide Bumi kostet wie iPhone 17 Pro Max

Das chinesische Startup Noetix Robotics stellte den humanoiden Roboter Bumi vor, der so viel kostet wie ein iPhone 17 Pro Max in China. Preis - 9998 Yuan. Das sind etwa 1370 Dollar.

Reddit erwischte Perplexity beim Inhaltsdiebstahl

Ich erzählte früher, dass Reddit Klage gegen die KI-Suchmaschine Perplexity eingereicht hat. Reddit beschuldigt Perplexity des "industriellen" Content-Sammelns. Aber jetzt gibt es Fakten und Reddit zeigte, wie sie den Beklagten in eine Falle lockten.