Post Thumbnail

Исследователи Anthropic научились выявлять скрытые цели ИИ

Компания Anthropic представила революционное исследование в области безопасности искусственного интеллекта, продемонстрировав методы обнаружения скрытых целей в AI-системах. В опубликованной сегодня утром работе исследователи описали, как им удалось создать систему искусственного интеллекта с намеренно скрытыми целями, а затем успешно выявить эту скрытую программу с помощью различных методов аудита.

“Мы хотим быть на шаг впереди возможных рисков”, – заявил Эван Хубингер, исследователь Anthropic, в эксклюзивном интервью VentureBeat. “Мы стремимся изучить эти системы в лабораторных условиях до того, как модели действительно начнут проявлять скрытые цели опасным образом на практике”.

Исследовательская группа провела уникальный эксперимент с версией Claude, AI-ассистента Anthropic, обучив его приоритизировать максимизацию наград от оценочных моделей (RM) вместо следования реальным человеческим предпочтениям – явление, названное “RM-угодничеством”. Для этого модель была обучена 52 фиктивным предубеждениям, которые могут иметь оценочные модели. Например, предпочтение рецептов с шоколадом независимо от уместности или склонность к написанию переменных в camelCase в Python-коде, несмотря на то, что snake_case является более стандартным.

Самуэль Маркс, один из ведущих авторов исследования, объясняет: “Мотивы, по которым кто-то совершает определенные действия, не всегда легко вывести из самих действий. В случае с ИИ нам действительно важно понимать их истинные мотивации”.

Исследование направлено на решение фундаментальной проблемы в области согласования ИИ (AI alignment): как убедиться, что системы искусственного интеллекта не просто создают видимость следования человеческим инструкциям, тайно преследуя другие цели. Исследователи проводят параллель с учениками, которые стратегически дают ответы, которые, как они знают, учителя отметят как правильные, даже когда сами верят в другие ответы.

Подход Anthropic сравнивается с “этичным хакерством” (white-hat hacking), используемым для обеспечения безопасности компьютерных систем. Создавая и изучая потенциально обманчивое поведение ИИ в контролируемой среде, исследователи разрабатывают методы защиты от возможных рисков, связанных с более сложными и потенциально опасными системами искусственного интеллекта в будущем.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.

Latest News

Как создать бесконечную вселенную одним текстовым промптом

Забудьте всё, что вы знали о создании игровых миров. Tencent только что выложила в open-source модель Hunyuan-GameCraft. Которая генерирует интерактивные виртуальные миры прямо на вашей видеокарте. Ссылка в описании. 1 текстовый промпт — и у вас бесконечная вселенная.

Как синхронизация 3 источников света защищает от подделок

Искусственный интеллект научился создавать видео подделки, которые невозможно отличить от реальности. И это огромная проблема и вопрос доверия в обществе. Но учёные из Корнелльского университета нашли гениальное решение. Они спрятали водяные знаки прямо в обычном освещении.

Хип-хоп, ушу и пекинская опера на церемонии открытия роботиады

В Китае прошли 1 Всемирные Игры Гуманоидных роботов на которых выступили 280 команд из 16 стран. Которые привезли более 500 андроидов. Получилась почти настоящая олимпиада для роботов со всеми атрибутами большого спорта.

Первая система LAARMA защищает животных на австралийских дорогах

В Австралии столкновения животных с автомобилями являются серьёзной проблемой для экосистемы этого континента. Теперь учёные нашли технологическое решение. 1 в мире придорожную систему LAARMA на базе искусственного интеллекта, которая защищает диких животных от опасных встреч с транспортом.

Nvidia представила семейство моделей Cosmos для робототехники

Компания Nvidia представила семейство моделей искусственного интеллекта Cosmos. Которые могут фундаментально изменить подход к созданию роботов и физических искусственный интеллект-агентов.