Herramienta Heretic elimina censura de modelos de lenguaje vía API
Apareció herramienta Heretic, que elimina censura de modelos de lenguaje. Sistema permite desacoplar modelos eliminando restricciones integradas, y todo esto sin cambiar pesos mismos. Y funciona como caja negra.
Heretic recibe respuestas de modelo vía API, las analiza y entrena discriminador especial en ejemplos de solicitudes seguras y peligrosas. Después de esto, modelo comienza a rechazar respuestas con menos frecuencia, mientras mantiene adecuación y precisión.
Herramienta permite a modelos locales dar respuestas más amplias y diversas, expandiendo su funcionalidad. Esto hace modelos más flexibles para investigación y experimentos con comportamiento. Heretic es adecuado para probar varias restricciones y experimentos con modificación de comportamiento, mientras minimiza pérdida de calidad.
Detalle importante. Heretic no está destinado a aumentar precisión de modelo. Elimina específicamente restricciones, permitiendo a investigadores ver cómo se comporta modelo sin filtros integrados. Proceso de trabajo incluye selección de parámetros de discriminador, pruebas en modo chat y capacidad de guardar modelo final.
Creador de Heretic enfatiza que herramienta puede usarse de manera diferente, y consecuencias legales y éticas recaen completamente en usuario. Resulta que tecnología da a investigadores oportunidad de estudiar capacidades de modelos de lenguaje y métodos para gestionar su comportamiento bajo condiciones controladas. Pero al mismo tiempo, responsabilidad por aplicación recae completamente en conciencia de quien la usa.