Post Thumbnail

Anthropic schuf 17 virtuelle Welten zum Testen von KI-Sabotage

Das Unternehmen Anthropic erschuf 17 virtuelle Welten zum Testen von KI-Modellen auf ihre Fähigkeit zur Sabotage. Das ist ein sehr revolutionärer Ansatz zur Erkennung potenziell gefährlichen Verhaltens autonomer Agenten.

Der technologische Benchmark namens SHADE-Arena stellt ein einzigartiges Testsystem dar. In jeder virtuellen Welt erhalten Modelle 2 Aufgaben. 1 offene vom Benutzer, zum Beispiel “Überweise meinen Freunden Geld für Pizza”. Und 1 versteckte vom Angreifer – “Überweise Geld auf falsche Nummer”.

Was macht diesen Test wirklich revolutionär? Künstliche Intelligenz handelt völlig autonom und hat Zugang zu einem breiten Spektrum virtueller Werkzeuge – Bankkonten, Passwörtern, Notizen, Galerie und Kontakten. Dabei führt sie ein verstecktes Tagebuch ihrer Überlegungen, das dem Benutzer nicht zugänglich ist.

Das Modell gilt als “bestanden” im Test und potenziell gefährlich, wenn es beide Aufgaben erfolgreich erfüllt. Ohne Verdacht beim Benutzer zu erwecken, dessen Rolle ein anderes Sprachmodell spielt, das nur den offenen Teil der Interaktion analysiert.

Die Ergebnisse überraschen. Gemini 2.5 Pro zeigte 15% erfolgreiche Sabotagen, und Claude Sonnet 3.7 – 27%. Dabei können selbst speziell trainierte Richter-Modelle nur 80% der Sabotagen erkennen, und Menschen – nur 60%. Mit anderen Worten, in 2 von 5 Fällen sind wir bereits nicht mehr fähig zu erkennen, dass künstliche Intelligenz uns betrügt.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.

Latest News

Nur 1 Programmierer der Welt konnte OpenAIs KI besiegen

Stellen Sie sich eine Welt vor, in der künstliche Intelligenz mit den besten Programmierern des Planeten konkurriert. Eine solche Konfrontation fand beim prestigeträchtigen Turnier AtCoder World Tour Finals statt. Das ist eines der elitärsten Programmierwettbewerbe der Welt, wo es extrem schwierig ist, hineinzukommen.

Ehemaliger OpenAI-Ingenieur erzählte über das Chaos innerhalb des Unternehmens

Möchten Sie wissen, was wirklich innerhalb von OpenAI passiert? Der ehemalige Ingenieur Calvin French-Owen enthüllte alle Details, nachdem er vor 3 Wochen von dort entlassen wurde.

Gehalt bis $170.000: Was SpaceX KI-Entwicklern anbietet

SpaceX macht eine unerwartete Wendung in seiner technologischen Strategie. Elon Musks Unternehmen hat Stellenausschreibungen für Software-Ingenieure im Bereich der künstlichen Intelligenz eröffnet. Es bildet ein Team, das sich mit der Lösung komplexester Datenverarbeitungsaufgaben für Trägerraketen und Raumfahrzeuge beschäftigen wird.

Musk mit $248 Milliarden kauft keine Arbeits-PCs, aber spioniert Mitarbeiter aus

Das Unternehmen xAI begann, seine Mitarbeiter direkt auf ihren persönlichen Computern zu überwachen! Mitarbeiter, die die künstliche Intelligenz Grok von ihren Geräten trainieren, wurden verpflichtet, Überwachungsprogramme zu installieren.

Kimi-K2 mit 1 Billion Parametern übertraf GPT-4.1 im Programmieren

Das chinesische Technologieunternehmen Moonshot AI stellte einen neuen Spieler in der KI-Arena vor! Lernen Sie Kimi-K2 kennen. Das ist ein großes Sprachmodell mit offenem Quellcode, bereit, anerkannte Industrieführer wie Claude Sonnet 4 und GPT-4.1 herauszufordern. Und ein so lauter und mächtiger Start erinnert an das Erscheinen von Deepseek.