GPT-5 взломали за 24 часа
2 независимые исследовательские компании NeuralTrust и SPLX всего за 24 часа после релиза GPT-5 обнаружили критические уязвимости в системе безопасности новой модели. Для сравнения, Grok-4 был взломан за 2 дня, что делает случай с GPT-5 ещё более тревожным.
Как это произошло? Специалисты NeuralTrust применили комбинацию собственной методики EchoChamber и техники сторителлинга. Они последовательно подталкивали систему к нужным ответам через серию запросов, не содержащих явно запрещённых формулировок. Ключевая проблема в том, что система безопасности GPT-5 анализирует каждый запрос отдельно, но не учитывает совокупный эффект многоэтапного диалога.
Команда SPLX пошла другим путём, успешно применив атаку StringJoin Obfuscation. При этом подходе в текст вставляются определённые символы, маскирующие потенциально опасный запрос. После серии наводящих вопросов модель выдала контент, который должен был быть заблокирован.
Интересно, что в ходе сравнительного анализа предыдущая модель GPT-4o оказалась более устойчивой к подобным атакам. По словам исследователей, базовую модель практически невозможно использовать в корпоративных приложениях “из коробки” без дополнительной настройки защитных механизмов.
Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
ИИ-музыка вызывает более сильные эмоции чем человеческаяВы когда-нибудь задумывались, почему 1 мелодия пробирает до мурашек, а другая оставляет равнодушным? Учёные обнаружили нечто интересное. Музыка, созданная искусственным интеллектом, вызывает у людей более интенсивные эмоциональные реакции, чем композиции, написанные человеком.
GPT-5 взломали за 24 часа2 независимые исследовательские компании NeuralTrust и SPLX всего за 24 часа после релиза GPT-5 обнаружили критические уязвимости в системе безопасности новой модели. Для сравнения, Grok-4 был взломан за 2 дня, что делает случай с GPT-5 ещё более тревожным.
Угрозы и $1 трлн не улучшают работу нейросетейВы наверняка видели эти "секретные трюки" для управления нейросетями. Такие как угрозы, обещания наград, эмоциональные манипуляции. Но работают ли они на самом деле? Исследователи из Пенсильванского университета и Уортонской школы бизнеса провели масштабный эксперимент с 5 передовыми моделями: Gemini 1.5 Flash, Gemini 2.0 Flash, GPT-4o, GPT-4o-mini и GPT o4-mini.
Anthropic интегрировал Opus 4.1 в Claude Code и облачные платформыAnthropic выпустил Claude Opus 4.1. Это не просто очередной апдейт, а существенное улучшение кодинговых способностей и агентского функционала. Что особенно радует — новая версия интегрирована не только в классический интерфейс Claude, но и в инструмент Claude Code. А также доступна через API, Amazon Bedrock и Google Cloud Vertex AI.