Mein Name ist AIvengo und ich präsentiere Ihnen tägliche Nachrichten über künstliche Intelligenz
AIvengo > Bewertungen > OpenAI testet Modelle gegen Spezialisten aus 44 Berufen
OpenAI testet Modelle gegen Spezialisten aus 44 Berufen
OpenAI stellte neuen Benchmark GDPval vor, der ihre KI-Modelle im Vergleich mit Profis aus verschiedenen Branchen testet. Und ist Versuch zu verstehen, wie nahe OpenAI-Systeme der Überlegenheit über Menschen in ökonomisch bedeutsamer Arbeit sind.
Der Benchmark basiert auf 9 Branchen, die größten Beitrag zum US-Bruttoinlandsprodukt leisten. GDPval testet KI-Modellleistung über 44 Berufe in diesen Branchen, von Programmierern bis Krankenschwestern und Journalisten. Erfahrene Profis verglichen KI-generierte Berichte mit Arbeiten anderer Spezialisten.
GPT-5 high wurde in 46,6% der Fälle als besser oder gleichwertig mit Branchenexperten eingestuft. Claude Opus 4.1 von Anthropic wurde in 49% der Aufgaben als besser oder gleichwertig mit Branchenexperten eingestuft. Obwohl OpenAI behauptet, Claude zeigte solch hohe Ergebnisse wegen Neigung, attraktive Grafiken zu erstellen.
Ich denke, solch hohe Modellwerte könnten wegen Testbeschränkungen überhöht sein. Und spiegeln nicht reale Leistung wider. Der neue Benchmark selbst könnte falsche Erwartungen an KI-Fähigkeiten unter realen Arbeitsbedingungen schaffen.
Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.
Sie sind dem sicher schon begegnet. Brief von Kollegen, der perfekt aussieht: richtige Struktur, schöne Worte, professioneller Ton. Sie beginnen zu lesen — und verstehen, dass hinter all dieser Verpackung absolut nichts steckt. Keine Konkretheit, keine Lösungen, nur schön verpackte Leere. Herzlichen Glückwunsch: Sie sind gerade auf Workslop gestoßen.
Künstliche Intelligenz ist intelligenter als die meisten Menschen. Dieser Gedanke kommt fast jedem in den Sinn, der regelmäßig moderne Sprachmodelle nutzt. Und wissen Sie was? Dieser Gedanke basiert auf unserem Wahrnehmungsfehler.
OpenAI DevDay 2025 — wichtiges Ereignis in der Welt der künstlichen Intelligenz. Und das ist nicht einfach eine weitere Präsentation. Ich habe für Sie alle wichtigen Fakten, Funktionen, Meinungen gesammelt und Sie erfahren alles Interessanteste, was OpenAI-Chef Sam Altman erzählte.
Interessantes Konzept der KI-Wirtschaft wird in neuer Google DeepMind-Studie präsentiert. Link in der Beschreibung. Wissenschaftler analysierten sich schnell formierende Realität. In der KI-Agenten zu eigenständigen Wirtschaftsakteuren werden, fähig zu handeln, zu verhandeln und Wert zu schaffen ohne direkte menschliche Beteiligung. Und wenn dieser Prozess ohne angemessene Kontrolle bleibt, können autonome Systeme eigene parallele Wirtschaft bilden, eng verbunden mit der menschlichen. Was sowohl enorme Möglichkeiten als auch ernsthafte Risiken birgt.
Es stellt sich heraus, dass Oracle beeindruckendes Wachstum zeigt und traditionelle Cloud-Computing-Führer überholt. Und meisterhaft die KI-Welle zu seinem Vorteil nutzt.