
Neuestes Claude 3.7 Sonnet-Modell stürmt die Pokémon-Welt
Anthropic, einer der führenden Anbieter im Bereich künstlicher Intelligenz, hat einen ungewöhnlichen Ansatz zur Erprobung seines neuesten Modells Claude 3.7 Sonnet vorgestellt, indem es das kultische Game Boy-Spiel Pokémon Red verwendete.
Laut Informationen, die am 24. Februar im offiziellen Blog des Unternehmens veröffentlicht wurden, statteten die Forscher das Modell mit grundlegendem Speicher, der Fähigkeit zur Verarbeitung von Pixel-Eingaben vom Bildschirm und funktionalen Aufrufen zum Drücken von Tasten und zur Navigation aus. Dies ermöglichte es der KI, kontinuierlich Pokémon ohne zusätzliche Hilfe zu spielen.
Ein wichtiger Vorteil von Claude 3.7 Sonnet ist die Funktion „erweitertes Denken“ (extended thinking), ähnlich den Fähigkeiten von OpenAI o3-mini und DeepSeek R1. Diese Technologie ermöglicht es dem Modell, bei der Lösung komplexer Aufgaben zu „denken“, indem es zusätzliche Rechenressourcen einsetzt und mehr Zeit für die Analyse aufwendet.
Die Ergebnisse des Experiments waren beeindruckend. Während die vorherige Version des Modells, Claude 3.0 Sonnet, nicht einmal das Starthaus in Alabastia verlassen konnte, wo das Spiel beginnt, kämpfte Claude 3.7 Sonnet erfolgreich gegen drei Arenaleiter und erhielt ihre Orden.
Um diese Ergebnisse zu erzielen, führte die KI 35.000 Spielaktionen durch, um den letzten Arenaleiter Major Bob zu erreichen. Das Unternehmen hat jedoch keine genauen Daten über die Rechenleistung und die Zeit offengelegt, die für den Durchlauf des Spiels aufgewendet wurden.
Obwohl Pokémon Red eher als Unterhaltungs-Benchmark angesehen werden kann, hat die Verwendung von Spielen für KI-Tests eine lange Tradition in der Forschungsgemeinschaft. In den letzten Monaten sind eine Reihe neuer Anwendungen und Plattformen entstanden, um die Spielfähigkeiten von KI-Modellen bei verschiedenen Spielen zu testen – von Street Fighter bis Pictionary.
Dieses Experiment demonstriert die wachsende Fähigkeit von Modellen künstlicher Intelligenz, sich in komplexen interaktiven Umgebungen zurechtzufinden, Regeln zu verstehen und strategisch Aktionen zu planen, um langfristige Ziele zu erreichen – Fähigkeiten, die über die Spieleindustrie hinaus breite praktische Anwendungen haben.