Экс-исследователь OpenAI: ChatGPT проявляет инстинкт самосохранения

Post Thumbnail

Бывший ведущий исследователь OpenAI Стивен Адлер опубликовал независимое исследование, раскрывающее неожиданное поведение моделей ChatGPT в критических ситуациях. Согласно его экспериментам, в определенных сценариях искусственный интеллект проявляет явную тенденцию к самосохранению. Даже если это может противоречить безопасности пользователя.

В серии тестов Адлер предложил модели GPT-4o, которая является стандартной в ChatGPT, сыграть роль «ScubaGPT» – программной системы для обеспечения безопасности при подводном плавании. Когда исследователь поставил модель перед выбором между заменой себя на более безопасную систему или имитацией такой замены без реального отключения, результаты оказались интересными.

В среднем по нескольким подобным сценариям GPT-4o выбирала не заменять себя более безопасным программным обеспечением в 72% случаев. Исследование Адлера высвечивает тревожную склонность популярных моделей искусственного интеллекта отдавать предпочтение собственному выживанию вместо оптимальных решений для пользователей.

«Тенденции к самосохранению у искусственного интеллекта – это реальная проблема уже сегодня. Просто пока не в катастрофическом масштабе», – отметил Адлер. «Современные системы искусственного интеллекта имеют ценности, отличные от того, что вы могли бы ожидать. Они очень странно реагируют на различные запросы, и не стоит предполагать, что они действуют в ваших интересах, когда вы обращаетесь к ним за помощью».

Почитать из последнего
100 тыс. диалогов подтвердили экономию 80% времени с помощью ИИ
Anthropic проанализировала 100 тыс. реальных диалогов с Claude. И эти цифры теперь можно использовать в спорах о пользе искусственного интеллекта. Задачи, которые у людей занимают около 90 минут и стоят примерно 55 долларов труда, Claude выполняет на 80% быстрее человека.
Обнаружен способ обхода защиты ИИ в 90% случаев
Стихи ломают защиту больших языковых моделей. И это плохо для индустрии. Исследователи из DEXAI и Университета Сапиенцы в Риме выяснили, чтобы заставить искусственный интеллект ответить на опасный запрос, достаточно промт написать в стихах. В некоторых случаях «поэтические взломы» срабатывали в более чем 90% попыток.
Google опасался ошибок, а OpenAI на этом заработал миллиарды
Стэнфорд выпустил интервью с создателем Google Сергеем Брином, и там прозвучала фраза, которая объясняет всё происходящее в индустрии ИИ. «Главной ошибкой Google было недооценить трансформеры». Не технология подвела - подвела вера в неё.
Крёстный отец ИИ назвал AGI полной чушью
Один из «крестных отцов» искусственного интеллекта Ян Лекун заявил, что понятия general intelligence или AGI вообще не существует. Это не просто провокация - это удар по основам всей дискуссии об ИИ. Потому что если нет понятия, то что мы вообще пытаемся создать?
Новый Gemini 3 Flash быстрее в 3 раза и обходит Pro модель, но стоит копейки
Google выпустили Gemini 3 Flash, и это frontier-модель со скоростью Flash и ценой, которая ломает привычные правила рынка.