Post Thumbnail

Инструмент Heretic снимает цензуру с языковых моделей через API

Появился инструмент Heretic, который снимает цензуру с языковых моделей. Система позволяет расцеплять модели, убирая встроенные ограничения и всё это без изменения самих весов. И работает это как чёрный ящик.

Heretic получает ответы модели через API, анализирует их и обучает специальный дискриминатор на примерах безопасных и опасных запросов. После этого модель начинает реже отказывать в ответах, при этом сохраняя адекватность и точность.

Инструмент позволяет локальным моделям давать более широкие и разнообразные ответы, расширяя их функциональность. Это делает модели более гибкими для исследований и экспериментов с поведением. Heretic подходит для тестирования различных ограничений и экспериментов с модификацией поведения, при этом минимизируя потерю качества.

Важная деталь. Heretic не предназначен для повышения точности модели. Он именно снимает ограничения, позволяя исследователям видеть, как модель ведёт себя без встроенных фильтров. Процесс работы включает подбор параметров дискриминатора, тестирование в чат-режиме и возможность сохранения финальной модели.

Создатель Heretic подчёркивает, что инструмент можно использовать по-разному, и юридические и этические последствия полностью ложатся на пользователя. Получается, технология даёт исследователям возможность изучать возможности языковых моделей и способы управления их поведением в контролируемых условиях. Но при этом ответственность за применение — полностью на совести того, кто её использует.

Автор: AIvengo
5 лет я работаю с машинным обучением и искусственным интеллектом. И эта сфера не перестает меня удивлять, восхищать и интересовать.
Latest News
Люди массово заводят романы с ИИ, доходит до виртуальных браков

Люди начали массово заводить романы с искусственным интеллектом. И это не просто переписка для развлечения. Доходит до виртуальных браков, беременности и воспитания несуществующих детей. Учёные из Германии и США провели исследование и обнаружили то, что многие не хотели замечать.

Глава Hugging Face предсказал схлопывание пузыря больших языковых моделей

Клем Деланг из Hugging Face провёл красную линию в дискуссии о технологическом пузыре. И эта линия проходит не там, где все ожидают. Глава 1 из крупнейших платформ для искусственного интеллекта заявил, что пузырь есть, но это не пузырь искусственного интеллекта. Это пузырь больших языковых моделей. И он может схлопнуться уже в следующем году.

OpenAI выпустила GPT-5.1-Codex-Max и обошла Gemini 3 Pro через день

OpenAI представила GPT-5.1-Codex-Max. Это версия GPT-5.1 Thinking, специально заточенная под задачи программирования внутри кодинг-агента Codex. Это 1 модель компании, нативно обученная работать через множество контекстных окон с помощью процесса, который называется компакция. Модель способна связно работать с миллионами токенов в рамках 1 задачи.

Пять IT-основателей заработали более 200 млрд долларов на буме ИИ

Пять основателей IT-компаний на фоне бума искусственного интеллекта способны похвастать благосостоянием более 200 млрд долларов каждый. Ещё недавно, как отмечает The Economic Times, наличие 100 млрд долларов позволяло получить доступ в клуб мировой элиты, но теперь планка поднялась вдвое.

Японские учёные создали систему чтения воспоминаний через МРТ

Группа японских учёных из лаборатории NTT показала систему, которая по данным функциональной МРТ генерирует текстовые описания того, что человек вспоминает, представляет или видит. По сути, это чтение воспоминаний. И ещё 1 большой шаг к чтению мыслей.