Инструмент Heretic снимает цензуру с языковых моделей через API
Появился инструмент Heretic, который снимает цензуру с языковых моделей. Система позволяет расцеплять модели, убирая встроенные ограничения и всё это без изменения самих весов. И работает это как чёрный ящик.
Heretic получает ответы модели через API, анализирует их и обучает специальный дискриминатор на примерах безопасных и опасных запросов. После этого модель начинает реже отказывать в ответах, при этом сохраняя адекватность и точность.
Инструмент позволяет локальным моделям давать более широкие и разнообразные ответы, расширяя их функциональность. Это делает модели более гибкими для исследований и экспериментов с поведением. Heretic подходит для тестирования различных ограничений и экспериментов с модификацией поведения, при этом минимизируя потерю качества.
Важная деталь. Heretic не предназначен для повышения точности модели. Он именно снимает ограничения, позволяя исследователям видеть, как модель ведёт себя без встроенных фильтров. Процесс работы включает подбор параметров дискриминатора, тестирование в чат-режиме и возможность сохранения финальной модели.
Создатель Heretic подчёркивает, что инструмент можно использовать по-разному, и юридические и этические последствия полностью ложатся на пользователя. Получается, технология даёт исследователям возможность изучать возможности языковых моделей и способы управления их поведением в контролируемых условиях. Но при этом ответственность за применение — полностью на совести того, кто её использует.
Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
Люди массово заводят романы с ИИ, доходит до виртуальных браковЛюди начали массово заводить романы с искусственным интеллектом. И это не просто переписка для развлечения. Доходит до виртуальных браков, беременности и воспитания несуществующих детей. Учёные из Германии и США провели исследование и обнаружили то, что многие не хотели замечать.
Глава Hugging Face предсказал схлопывание пузыря больших языковых моделейКлем Деланг из Hugging Face провёл красную линию в дискуссии о технологическом пузыре. И эта линия проходит не там, где все ожидают. Глава 1 из крупнейших платформ для искусственного интеллекта заявил, что пузырь есть, но это не пузырь искусственного интеллекта. Это пузырь больших языковых моделей. И он может схлопнуться уже в следующем году.
OpenAI выпустила GPT-5.1-Codex-Max и обошла Gemini 3 Pro через деньOpenAI представила GPT-5.1-Codex-Max. Это версия GPT-5.1 Thinking, специально заточенная под задачи программирования внутри кодинг-агента Codex. Это 1 модель компании, нативно обученная работать через множество контекстных окон с помощью процесса, который называется компакция. Модель способна связно работать с миллионами токенов в рамках 1 задачи.
Пять IT-основателей заработали более 200 млрд долларов на буме ИИПять основателей IT-компаний на фоне бума искусственного интеллекта способны похвастать благосостоянием более 200 млрд долларов каждый. Ещё недавно, как отмечает The Economic Times, наличие 100 млрд долларов позволяло получить доступ в клуб мировой элиты, но теперь планка поднялась вдвое.
Японские учёные создали систему чтения воспоминаний через МРТГруппа японских учёных из лаборатории NTT показала систему, которая по данным функциональной МРТ генерирует текстовые описания того, что человек вспоминает, представляет или видит. По сути, это чтение воспоминаний. И ещё 1 большой шаг к чтению мыслей.