Инструмент Heretic снимает цензуру с языковых моделей через API

Post Thumbnail

Появился инструмент Heretic, который снимает цензуру с языковых моделей. Система позволяет расцеплять модели, убирая встроенные ограничения и всё это без изменения самих весов. И работает это как чёрный ящик.

Heretic получает ответы модели через API, анализирует их и обучает специальный дискриминатор на примерах безопасных и опасных запросов. После этого модель начинает реже отказывать в ответах, при этом сохраняя адекватность и точность.

Инструмент позволяет локальным моделям давать более широкие и разнообразные ответы, расширяя их функциональность. Это делает модели более гибкими для исследований и экспериментов с поведением. Heretic подходит для тестирования различных ограничений и экспериментов с модификацией поведения, при этом минимизируя потерю качества.

Важная деталь. Heretic не предназначен для повышения точности модели. Он именно снимает ограничения, позволяя исследователям видеть, как модель ведёт себя без встроенных фильтров. Процесс работы включает подбор параметров дискриминатора, тестирование в чат-режиме и возможность сохранения финальной модели.

Создатель Heretic подчёркивает, что инструмент можно использовать по-разному, и юридические и этические последствия полностью ложатся на пользователя. Получается, технология даёт исследователям возможность изучать возможности языковых моделей и способы управления их поведением в контролируемых условиях. Но при этом ответственность за применение — полностью на совести того, кто её использует.

Почитать из последнего
Forbes подсчитал, кто заработал миллиарды на буме нейросетей
В 25-м году ИИ превратил больше предпринимателей в миллиардеров. А инвесторы вложили в сектор ИИ свыше 200 миллиардов долларов. Это почти 50% всего мирового венчурного финансирования. Forbes подвёл итоги: крупнейшие состояния сколотили не только создатели моделей, но и те, кто строит инфраструктуру вокруг них.
В Китае текстильная фабрика работает полностью на ИИ и без людей
В китайском городе Синьцзянь заработала текстильная фабрика, которая работает полностью с помощью ИИ. И вот вам картина будущего, в котором людям на производстве места нет. На огромном производстве ни одного рабочего на линии. Около 5000 ткацких станков крутятся круглосуточно под управлением ИИ и робототехники.
Психиатры зафиксировали десятки случаев, когда люди сходят с ума от ChatGPT
The Wall Street Journal пишет, что рост популярности чат-ботов на ИИ вызывает обеспокоенность психиатров, фиксирующих отдельные случаи расстройств на этой почве.
Similarweb показал, за счёт чего Gemini отжирает долю у OpenAI
Similarweb опубликовал свежую аналитику по доле разных продуктов на больших языковых моделях в веб-трафике. И вот вам картина перераспределения рынка. В начале года у ChatGPT было 87%, теперь — 68%. Доля упала почти на 20%.
Новая модель для кодинга думает как разработчик со стажем
IQuest-Coder-40B – это не просто ещё один чат-бот, который генерирует код по шаблонам из GitHub. Это новая open-source модель для кодинга с 40 миллиардами параметров. Которая обучалась совсем не так, как его конкуренты.