Инструмент Heretic снимает цензуру с языковых моделей через API

Post Thumbnail

Появился инструмент Heretic, который снимает цензуру с языковых моделей. Система позволяет расцеплять модели, убирая встроенные ограничения и всё это без изменения самих весов. И работает это как чёрный ящик.

Heretic получает ответы модели через API, анализирует их и обучает специальный дискриминатор на примерах безопасных и опасных запросов. После этого модель начинает реже отказывать в ответах, при этом сохраняя адекватность и точность.

Инструмент позволяет локальным моделям давать более широкие и разнообразные ответы, расширяя их функциональность. Это делает модели более гибкими для исследований и экспериментов с поведением. Heretic подходит для тестирования различных ограничений и экспериментов с модификацией поведения, при этом минимизируя потерю качества.

Важная деталь. Heretic не предназначен для повышения точности модели. Он именно снимает ограничения, позволяя исследователям видеть, как модель ведёт себя без встроенных фильтров. Процесс работы включает подбор параметров дискриминатора, тестирование в чат-режиме и возможность сохранения финальной модели.

Создатель Heretic подчёркивает, что инструмент можно использовать по-разному, и юридические и этические последствия полностью ложатся на пользователя. Получается, технология даёт исследователям возможность изучать возможности языковых моделей и способы управления их поведением в контролируемых условиях. Но при этом ответственность за применение — полностью на совести того, кто её использует.

Почитать из последнего
ChatGPT обогнал Netflix по выручке в Южной Корее
В Южной Корее выбрали, на что тратить деньги. Аналитики из Aicel Technologies подсчитали, что ежемесячный объём платежей за подписки на ИИ достиг $60 миллионов. Для сравнения, средняя месячная выручка Netflix в стране составляет около $50 миллионов. Получается, искусственный интеллект обогнал стриминг. Который казался незыблемым чемпионом по монетизации подписок.
Claude работает по своей конституции
Anthropic выложила новую конституцию Claude. И это реальная инструкция, по которой нейросеть принимает решения в сложных ситуациях. Раньше всё было просто: вот тебе список запретов, не делай это и то, работай по инструкции. Но компания поняла, что такой подход ломается при 1 же нестандартном кейсе, потому что модель не понимает «почему так». Теперь идея радикально другая. Claude должен не следовать правилам слепо, а мыслить через систему ценностей.
Гуманоид вышел на пробежку, но бывший инженер предупреждает об опасности
Компания Figure AI решила показать миру, как её робот-гуманоид бегает наравне с людьми. Руководитель Бретт Эдкок выложил видео, где железный парень уверенно движется рядом с сотрудниками, не отставая ни на шаг. Издание Digital Trends уже фантазирует: представьте, робот как персональный тренер задаёт вам темп для подготовки к 1 марафону! Звучит круто, правда?
Победитель AI Film Award получил миллион долларов
Google вручил 1 кинопремию для фильмов созданных ИИ. Миллион долларов получил Зубейр Эль-Джласси из Туниса за короткометражку Лили. Парень работает графическим дизайнером и режиссёром, использовал генератор Veo для видео и Gemini для подготовки сцен.
Anthropic рассказал, как Claude меняет науку
Anthropic опубликовала отчёт о том, как исследователи из топовых университетов внедряют Claude в биомедицину.