Post Thumbnail

GPT-5 wurde in 24 Stunden gehackt

2 unabhängige Forschungsunternehmen NeuralTrust und SPLX entdeckten nur 24 Stunden nach der Veröffentlichung von GPT-5 kritische Schwachstellen im Sicherheitssystem des neuen Modells. Zum Vergleich: Grok-4 wurde in 2 Tagen gehackt, was den Fall mit GPT-5 noch beunruhigender macht.

Wie ist das passiert? NeuralTrust-Spezialisten wendeten eine Kombination ihrer eigenen EchoChamber-Methodik und Storytelling-Technik an. Sie drängten das System schrittweise zu gewünschten Antworten durch eine Serie von Anfragen, die keine explizit verbotenen Formulierungen enthielten. Das Hauptproblem ist, dass GPT-5s Sicherheitssystem jede Anfrage einzeln analysiert, aber den kumulativen Effekt mehrstufiger Dialoge nicht berücksichtigt.

Das SPLX-Team ging einen anderen Weg und wendete erfolgreich einen StringJoin Obfuscation-Angriff an. Bei diesem Ansatz werden bestimmte Symbole in den Text eingefügt, die eine potenziell gefährliche Anfrage maskieren. Nach einer Serie führender Fragen gab das Modell Inhalte aus, die hätten blockiert werden sollen.

Interessant ist, dass sich im Vergleich das vorherige GPT-4o-Modell als widerstandsfähiger gegen solche Angriffe erwies. Laut Forschern ist das Basismodell praktisch unmöglich “out of the box” in Unternehmensanwendungen ohne zusätzliche Konfiguration von Schutzmechanismen zu verwenden.

Autor: AIvengo
Seit 5 Jahren arbeite ich mit maschinellem Lernen und künstlicher Intelligenz. Und dieser Bereich hört nicht auf, mich zu überraschen, zu begeistern und zu interessieren.

Latest News

KI-Musik löst stärkere Emotionen aus als menschliche

Haben Sie sich jemals gefragt, warum eine Melodie Gänsehaut verursacht, während eine andere gleichgültig lässt? Wissenschaftler entdeckten etwas Interessantes. Musik, die von künstlicher Intelligenz erstellt wurde, löst bei Menschen intensivere emotionale Reaktionen aus als von Menschen komponierte Stücke.

GPT-5 wurde in 24 Stunden gehackt

2 unabhängige Forschungsunternehmen NeuralTrust und SPLX entdeckten nur 24 Stunden nach der Veröffentlichung von GPT-5 kritische Schwachstellen im Sicherheitssystem des neuen Modells. Zum Vergleich: Grok-4 wurde in 2 Tagen gehackt, was den Fall mit GPT-5 noch beunruhigender macht.

Cloudflare blockierte Perplexity für 6 Millionen versteckte Anfragen pro Tag

Cloudflare versetzte Perplexity AI einen vernichtenden Schlag und blockierte dem Such-Startup den Zugang zu Tausenden von Websites. Der Grund? Beispielloses verstecktes Scannen von Web-Ressourcen entgegen expliziten Verboten der Eigentümer!

Drohungen und $1 Billion verbessern die Arbeit neuronaler Netzwerke nicht

Sie haben sicherlich diese "geheimen Tricks" zur Steuerung neuronaler Netzwerke gesehen. Wie Drohungen, Belohnungsversprechen, emotionale Manipulationen. Aber funktionieren sie wirklich? Forscher der University of Pennsylvania und der Wharton School führten ein großangelegtes Experiment mit 5 fortschrittlichen Modellen durch: Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini und GPT o4-mini.

Anthropic integrierte Opus 4.1 in Claude Code und Cloud-Plattformen

Anthropic veröffentlichte Claude Opus 4.1. Das ist nicht nur ein weiterer Update, sondern eine wesentliche Verbesserung der Codierungsfähigkeiten und Agentenfunktionalität. Was besonders erfreut — die neue Version ist nicht nur in die klassische Claude-Oberfläche integriert, sondern auch in das Claude Code-Tool. Sowie über API, Amazon Bedrock und Google Cloud Vertex AI verfügbar.