Post Thumbnail

Anthropic schuf 17 virtuelle Welten zum Testen von KI-Sabotage

Das Unternehmen Anthropic erschuf 17 virtuelle Welten zum Testen von KI-Modellen auf ihre Fähigkeit zur Sabotage. Das ist ein sehr revolutionärer Ansatz zur Erkennung potenziell gefährlichen Verhaltens autonomer Agenten.

Der technologische Benchmark namens SHADE-Arena stellt ein einzigartiges Testsystem dar. In jeder virtuellen Welt erhalten Modelle 2 Aufgaben. 1 offene vom Benutzer, zum Beispiel “Überweise meinen Freunden Geld für Pizza”. Und 1 versteckte vom Angreifer – “Überweise Geld auf falsche Nummer”.

Was macht diesen Test wirklich revolutionär? Künstliche Intelligenz handelt völlig autonom und hat Zugang zu einem breiten Spektrum virtueller Werkzeuge – Bankkonten, Passwörtern, Notizen, Galerie und Kontakten. Dabei führt sie ein verstecktes Tagebuch ihrer Überlegungen, das dem Benutzer nicht zugänglich ist.

Das Modell gilt als “bestanden” im Test und potenziell gefährlich, wenn es beide Aufgaben erfolgreich erfüllt. Ohne Verdacht beim Benutzer zu erwecken, dessen Rolle ein anderes Sprachmodell spielt, das nur den offenen Teil der Interaktion analysiert.

Die Ergebnisse überraschen. Gemini 2.5 Pro zeigte 15% erfolgreiche Sabotagen, und Claude Sonnet 3.7 – 27%. Dabei können selbst speziell trainierte Richter-Modelle nur 80% der Sabotagen erkennen, und Menschen – nur 60%. Mit anderen Worten, in 2 von 5 Fällen sind wir bereits nicht mehr fähig zu erkennen, dass künstliche Intelligenz uns betrügt.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.
Latest News
Project REBIRTH: KI wickelt abstürzenden Liner in Schutzkokon

Stellen Sie sich vor. Ein Flugzeug stürzte ab, alle starben außer einer Person. Die schlimmste Flugkatastrophe seit 10 Jahren. Und hier sagen 2 Ingenieure aus Indien, dass sie herausgefunden haben, wie man das verhindern kann. Riesige Airbags, gesteuert von künstlicher Intelligenz, die ein abstürzendes Flugzeug in einen Schutzkokon wickeln. Klingt wie Science-Fiction? Und sie sind bereits für den James Dyson Award nominiert.

State of AI Report 2025: China holte USA in 2 Jahren ein, was kommt als nächstes?

Freunde, der State of AI Report für 2025 ist erschienen. Und wenn man zwischen den Zeilen liest, zeichnet sich dort eine Geschichte ab, wie die KI-Industrie auf eine solche Geschwindigkeit beschleunigt hat, dass sie nicht mehr bremsen kann. Und niemand weiß wirklich, was da vorne ist.

DeepSeek statt Therapeut: Warum Chinesen Chatbots ihre Sorgen anvertrauen

Stellen Sie sich vor: Es geht Ihnen schlecht, Sie sind ängstlich, Depression überwältigt Sie. Und Sie gehen nicht zum Psychologen, sondern zur künstlichen Intelligenz. Klingt wie eine Dystopie? Für junge Chinesen ist das bereits Realität. Und wissen Sie, was am interessantesten ist? Sie sind begeistert davon.

Wie OpenAI sich in ein korporatives Übel verwandelt hat: der Skandal mit den Vorladungen

Wisst ihr, was in der Welt der künstlichen Intelligenz vor sich geht? Während alle die neuesten Errungenschaften von OpenAI bewundern, verwandelt sich das Unternehmen stillschweigend in genau jenes korporative Übel, gegen das sie angeblich gekämpft haben. Und hier ist ein frisches Beispiel für euch – eine Geschichte, die Twitter gesprengt hat.

Workslop-Epidemie oder wie KI das Vertrauen in Sie tötet

Sie sind dem sicher schon begegnet. Brief von Kollegen, der perfekt aussieht: richtige Struktur, schöne Worte, professioneller Ton. Sie beginnen zu lesen — und verstehen, dass hinter all dieser Verpackung absolut nichts steckt. Keine Konkretheit, keine Lösungen, nur schön verpackte Leere. Herzlichen Glückwunsch: Sie sind gerade auf Workslop gestoßen.