Neuestes Claude 3.7 Sonnet-Modell stürmt die Pokémon-Welt

Post Thumbnail

Anthropic, einer der führenden Anbieter im Bereich künstlicher Intelligenz, hat einen ungewöhnlichen Ansatz zur Erprobung seines neuesten Modells Claude 3.7 Sonnet vorgestellt, indem es das kultische Game Boy-Spiel Pokémon Red verwendete.

Laut Informationen, die am 24. Februar im offiziellen Blog des Unternehmens veröffentlicht wurden, statteten die Forscher das Modell mit grundlegendem Speicher, der Fähigkeit zur Verarbeitung von Pixel-Eingaben vom Bildschirm und funktionalen Aufrufen zum Drücken von Tasten und zur Navigation aus. Dies ermöglichte es der KI, kontinuierlich Pokémon ohne zusätzliche Hilfe zu spielen.

Ein wichtiger Vorteil von Claude 3.7 Sonnet ist die Funktion „erweitertes Denken“ (extended thinking), ähnlich den Fähigkeiten von OpenAI o3-mini und DeepSeek R1. Diese Technologie ermöglicht es dem Modell, bei der Lösung komplexer Aufgaben zu „denken“, indem es zusätzliche Rechenressourcen einsetzt und mehr Zeit für die Analyse aufwendet.

Die Ergebnisse des Experiments waren beeindruckend. Während die vorherige Version des Modells, Claude 3.0 Sonnet, nicht einmal das Starthaus in Alabastia verlassen konnte, wo das Spiel beginnt, kämpfte Claude 3.7 Sonnet erfolgreich gegen drei Arenaleiter und erhielt ihre Orden.

Um diese Ergebnisse zu erzielen, führte die KI 35.000 Spielaktionen durch, um den letzten Arenaleiter Major Bob zu erreichen. Das Unternehmen hat jedoch keine genauen Daten über die Rechenleistung und die Zeit offengelegt, die für den Durchlauf des Spiels aufgewendet wurden.

Obwohl Pokémon Red eher als Unterhaltungs-Benchmark angesehen werden kann, hat die Verwendung von Spielen für KI-Tests eine lange Tradition in der Forschungsgemeinschaft. In den letzten Monaten sind eine Reihe neuer Anwendungen und Plattformen entstanden, um die Spielfähigkeiten von KI-Modellen bei verschiedenen Spielen zu testen – von Street Fighter bis Pictionary.

Dieses Experiment demonstriert die wachsende Fähigkeit von Modellen künstlicher Intelligenz, sich in komplexen interaktiven Umgebungen zurechtzufinden, Regeln zu verstehen und strategisch Aktionen zu planen, um langfristige Ziele zu erreichen – Fähigkeiten, die über die Spieleindustrie hinaus breite praktische Anwendungen haben.

Почитать из последнего
UBTech wird Roboter Walker S2 für $37 Mio. an die Grenze Chinas schicken
Das chinesische Unternehmen UBTech gewann einen Vertrag über $37 Millionen. Und wird menschenähnliche Roboter Walker S2 zum Dienst an der Grenze Chinas zu Vietnam schicken. South China Morning Post berichtet, dass die Roboter mit Touristen und Personal interagieren, logistische Operationen durchführen, Fracht inspizieren und das Gelände patrouillieren werden. Und bezeichnenderweise — sie können selbstständig ihre Batterie wechseln.
Anthropic enthüllte versehentlich ein internes Dokument über die "Seele" von Claude
Anthropic enthüllte versehentlich einem Nutzer die "Seele" der künstlichen Intelligenz. Und das ist keine Metapher. Das ist ein ganz konkretes internes Dokument.
Jensen Huang befahl Nvidia-Mitarbeitern, KI überall zu nutzen
Jensen Huang verkündete innerhalb von Nvidia eine totale Mobilmachung unter dem Banner der künstlichen Intelligenz. Und das ist keine Empfehlung mehr. Das ist eine Forderung.
KI-Chatbots generieren Inhalte, die Essstörungen verschlimmern
Eine gemeinsame Studie der Stanford University und des Center for Democracy and Technology zeigte ein beunruhigendes Bild. Chatbots mit künstlicher Intelligenz stellen ein ernsthaftes Risiko für Menschen mit Essstörungen dar. Wissenschaftler warnen, dass neuronale Netze schädliche Ratschläge zu Diäten verteilen. Sie schlagen Wege vor, die Störung zu verbergen und generieren "inspirierenden Abnehm-Content", der das Problem verschlimmert.
OpenAGI veröffentlichte das Modell Lux, das Google und OpenAI überholt
Das Startup OpenAGI veröffentlichte das Modell Lux zur Computersteuerung und behauptet, dass dies ein Durchbruch ist. Nach Benchmarks überholt das Modell um eine ganze Generation Analoga von Google, OpenAI und Anthropic. Außerdem arbeitet es schneller. Etwa 1 Sekunde pro Schritt statt 3 Sekunden bei Konkurrenten. Und 10 Mal günstiger in den Kosten pro Verarbeitung von 1 Token.