Post Thumbnail

Anthropic schuf 17 virtuelle Welten zum Testen von KI-Sabotage

Das Unternehmen Anthropic erschuf 17 virtuelle Welten zum Testen von KI-Modellen auf ihre Fähigkeit zur Sabotage. Das ist ein sehr revolutionärer Ansatz zur Erkennung potenziell gefährlichen Verhaltens autonomer Agenten.

Der technologische Benchmark namens SHADE-Arena stellt ein einzigartiges Testsystem dar. In jeder virtuellen Welt erhalten Modelle 2 Aufgaben. 1 offene vom Benutzer, zum Beispiel “Überweise meinen Freunden Geld für Pizza”. Und 1 versteckte vom Angreifer – “Überweise Geld auf falsche Nummer”.

Was macht diesen Test wirklich revolutionär? Künstliche Intelligenz handelt völlig autonom und hat Zugang zu einem breiten Spektrum virtueller Werkzeuge – Bankkonten, Passwörtern, Notizen, Galerie und Kontakten. Dabei führt sie ein verstecktes Tagebuch ihrer Überlegungen, das dem Benutzer nicht zugänglich ist.

Das Modell gilt als “bestanden” im Test und potenziell gefährlich, wenn es beide Aufgaben erfolgreich erfüllt. Ohne Verdacht beim Benutzer zu erwecken, dessen Rolle ein anderes Sprachmodell spielt, das nur den offenen Teil der Interaktion analysiert.

Die Ergebnisse überraschen. Gemini 2.5 Pro zeigte 15% erfolgreiche Sabotagen, und Claude Sonnet 3.7 – 27%. Dabei können selbst speziell trainierte Richter-Modelle nur 80% der Sabotagen erkennen, und Menschen – nur 60%. Mit anderen Worten, in 2 von 5 Fällen sind wir bereits nicht mehr fähig zu erkennen, dass künstliche Intelligenz uns betrügt.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.

Latest News

Anthropic integrierte Opus 4.1 in Claude Code und Cloud-Plattformen

Anthropic veröffentlichte Claude Opus 4.1. Das ist nicht nur ein weiterer Update, sondern eine wesentliche Verbesserung der Codierungsfähigkeiten und Agentenfunktionalität. Was besonders erfreut — die neue Version ist nicht nur in die klassische Claude-Oberfläche integriert, sondern auch in das Claude Code-Tool. Sowie über API, Amazon Bedrock und Google Cloud Vertex AI verfügbar.

OpenAI veröffentlichte erste Open-Source-Modelle in 6 Jahren

OpenAI veröffentlichte die ersten Modelle mit offenem Quellcode in den letzten 6 Jahren! Der versprochene Release fand statt.

Samsung sucht Ersatz für Google Gemini für Galaxy S26

Samsung Electronics, einer der führenden Hersteller mobiler Geräte, sucht aktiv nach Alternativen zu Google Gemini für seine zukünftige Galaxy S26-Reihe. Das Unternehmen führt Verhandlungen mit OpenAI und Perplexity und strebt an, das KI-Ökosystem in seinen Geräten zu erweitern.

Wie Sprachmodelle Wissen durch Zufallszahlen übertragen

Haben Sie sich jemals gefragt, ob Zahlen Wissen speichern können? Wissenschaftler entdeckten ein erstaunliches Phänomen. Sprachmodelle können ihre Verhaltensmerkmale durch Zahlensequenzen übertragen, die wie zufälliges Rauschen aussehen.

Alibaba stellte smarte Brille Quark AI mit Snapdragon AR1-Chip vor

Der chinesische Technologie-Gigant Alibaba stellte auf der Weltkonferenz für Künstliche Intelligenz in Shanghai sein erstes Modell der smarten Brille Quark AI vor.