Инструмент Heretic снимает цензуру с языковых моделей через API

Post Thumbnail

Появился инструмент Heretic, который снимает цензуру с языковых моделей. Система позволяет расцеплять модели, убирая встроенные ограничения и всё это без изменения самих весов. И работает это как чёрный ящик.

Heretic получает ответы модели через API, анализирует их и обучает специальный дискриминатор на примерах безопасных и опасных запросов. После этого модель начинает реже отказывать в ответах, при этом сохраняя адекватность и точность.

Инструмент позволяет локальным моделям давать более широкие и разнообразные ответы, расширяя их функциональность. Это делает модели более гибкими для исследований и экспериментов с поведением. Heretic подходит для тестирования различных ограничений и экспериментов с модификацией поведения, при этом минимизируя потерю качества.

Важная деталь. Heretic не предназначен для повышения точности модели. Он именно снимает ограничения, позволяя исследователям видеть, как модель ведёт себя без встроенных фильтров. Процесс работы включает подбор параметров дискриминатора, тестирование в чат-режиме и возможность сохранения финальной модели.

Создатель Heretic подчёркивает, что инструмент можно использовать по-разному, и юридические и этические последствия полностью ложатся на пользователя. Получается, технология даёт исследователям возможность изучать возможности языковых моделей и способы управления их поведением в контролируемых условиях. Но при этом ответственность за применение — полностью на совести того, кто её использует.

Почитать из последнего
Беспилотный робомобиль Waymo сбил ребёнка у школы
Беспилотный автомобиль Waymo, принадлежащий Alphabet, сбил ребёнка возле начальной школы в Калифорнии. Компания добровольно сообщила об инциденте федеральным регуляторам автобезопасности в тот же день, и Национальное управление безопасности дорожного движения начало расследование.
Создатели ИИ-министра для борьбы с коррупцией украли 7 млн евро
Помните историю про ИИ-министра в Албании? Виртуальный чиновник Диелла должна была стать инструментом борьбы с глубоко укоренившейся коррупцией в стране. Звучало прогрессивно и технологично. Но есть 1 нюанс, который превращает всё это в анекдот достойный советского журнала «Фитиль».
OpenAI закрывает модель GPT-4o навсегда и уже очень скоро
OpenAI объявила, что 13 февраля этого года удалит несколько моделей из ChatGPT, включая GPT-4o. Которую обожают пользователи за тёплый разговорный стиль. Компания запустила GPT-4o в мае 24 года, и модель стала чрезвычайно популярна среди платных подписчиков.
Молчаливый тиктокер с покерфейсом продал свою компанию за 900 миллионов
Хаби Лейм – это такой молчаливый тиктокер с покерфейсом и 160 миллионами подписчиков. И вот он продал свою компанию за $900 миллионов. Сумма огромная, но нюанс в том, что это за продажа. Фишка в условиях контракта - это создание искусственного аватара, который будет вести стримы, сниматься в рекламе и продавать товары 24 часа в сутки. Пока настоящий Хаби спит или играет, его цифровая копия будет вкалывать в другом часовом поясе.
Гуманоиды работают в три раза хуже людей
Знаете, что объединяет хайп вокруг гуманоидов и реальность? Ничего. Но некоторые паникуют из-за того, что гуманоиды массово заменят людей на заводах. И тут директор китайской компании UBTech Майкл Там взял и честно признался Financial Times. Их новейшие человекоподобные роботы достигают производительности всего в 30-50% от человеческой. И это только в простейших операциях типа складывания коробок или контроля качества. Грубо говоря, 1 работник человек делает столько же, сколько 2-3 робота вместе взятых.