Post Thumbnail

“Схемирование” ИИ: когда модели притворяются ради скрытых целей

Исследователи OpenAI совместно с Apollo Research разработали методы оценки так называемого “схемирования”. Ссылка в описании.

“Схемирование” в искусственном интеллекте – это притворство модели при тайном преследовании другой цели. Схемирование возникает из-за необходимости моделей находить компромисс между конкурирующими целями. Это можно понять через человеческую аналогию с трейдером, который может заработать больше, нарушая закон и скрывая следы. Чем следуя закону. Или аналогия с детьми, которые не хотят делать неприятные задания и избегают ответственности.

Исследователи OpenAI в сотрудничестве с Apollo Research создали среды оценки, имитирующие будущие сценарии для изучения этого явления. Определяя скрытые действия как преднамеренное утаивание или искажение информации, они обнаружили проблемное поведение во всех современных моделях.

Исследователи совместно разработали метод снижения схемирования в моделях и установили протоколы для стресс-тестирования будущих методов. Затем обучили эти же модели, научив их анализировать общую анти-схемирующую спецификацию перед действием. Что дало 30-кратное снижение скрытых действий.

Исследователи также не нашли доказательств того, что современные модели могут внезапно начать проявлять значительное вредоносное поведение. Однако по мере усложнения задач с реальными последствиями потенциальные риски будут возрастать, требуя соответствующего развития защитных механизмов.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
Воркслоп - эпидемия или как ИИ убивает доверие к вам

Вы наверняка сталкивались с этим. Письмо от коллеги, которое выглядит идеально: правильная структура, красивые слова, профессиональный тон. Вы начинаете читать — и понимаете, что за всей этой упаковкой нет абсолютно ничего. Никакой конкретики, никаких решений, просто красиво оформленная пустота. Поздравляю: вы только что столкнулись с воркслопом.

ИИ не умнее людей: простой тест всё покажет

Искусственный интеллект умнее большинства людей. Вот такая мысль приходит в голову почти каждому, кто регулярно пользуется современными языковыми моделями. И знаете что? Эта мысль основана на нашей ошибке восприятия.

Обзор OpenAI DevDay 2025: разбор все анонсов

OpenAI DevDay двадцать пятого года — важное событие в мире искусственного интеллекта. И это не просто очередная презентация. Я собрал для вас все важные факты, функции, мнения и вы узнаете все самое интересное, что рассказывал глава OpenAI Сэм Альтман.  

Google DeepMind исследует формирование параллельной экономики ИИ

Интересный концепт экономики искусственного интеллекта представлен в новом исследовании Google DeepMind. Ссылка в описании. Учёные проанализировали стремительно формирующуюся реальность. В которой ИИ-агенты превращаются в самостоятельных экономических игроков, способных торговать, вести переговоры и создавать ценность без прямого участия человека. И если этот процесс останется без надлежащего контроля, автономные системы могут сформировать собственную параллельную экономику, тесно связанную с человеческой. Что несёт как огромные возможности, так и серьёзные риски.