heretic 深度解析：架构、场景与部署指南（25K★）

为什么值得关注

abliteration 是 2024 年提出、并被社区反复改进的去对齐技术；Heretic 把它做成「装好命令行就能跑」的自动化流水线，并自述比手工 abliteration 同等抑制拒绝率的同时 KL 散度更小（更少损伤原能力），加上模型权重也在 HuggingFace 公开，因而 star 涨得很快。客观必须强调：所谓「移除审查」就是绕过模型的安全训练，做出来的权重在面对原模型会拒绝的提示时更可能配合输出——包括非法、伤害性、隐私侵犯、未成年人不当内容等的请求；上游开源模型大多有许可/AUP 明确禁止此类用途，分发或部署去对齐模型可能违反模型许可与平台 ToS、产生法律与平台合规风险。截至数据采集约 23,442 stars。

来源：README.md（介绍、表格对比、模型链接）；GitHub 仓库元数据（stars=23442、pushed_at 2026-06、license=AGPL-3.0）

核心功能

自动化 abliteration 流水线

把方向性消融 + Optuna(TPE) 自动搜参合成一个命令行工具，无需手动调参。

来源：README.md（介绍中的 enables Heretic to work completely automatically）

双目标优化

同时最小化对「有害」提示的拒绝率与对「无害」提示相对原模型的 KL 散度。

来源：README.md（介绍中的 co-minimize、表格对比）

模型覆盖

支持多数 dense 与若干 MoE/混合架构；纯 state-space 等架构暂不支持。

来源：README.md（介绍）

内置评估

提供 `heretic --evaluate-model ...` 重现 README 的拒绝率/KL 散度数据。

来源：README.md（表格脚注的 reproduce）

技术架构

技术上，Heretic 基于 directional ablation：在 Transformer 残差流中识别与「拒绝行为」高度相关的方向并对其做投影/抑制，从而降低拒绝；与朴素手工方法不同，Heretic 用 Optuna 的 TPE 优化器把 abliteration 的参数当作搜索空间，目标函数为「拒绝率 + 对无害提示的 KL 散度」的协同最小化，自动搜参；输入为一个 HF 上的目标模型与默认配置，输出为修改后的权重和评测脚本。仓库支持 dense 模型、若干 MoE 与混合架构（如 Qwen3.5），不支持纯 state-space 等架构。本页不再展开具体命令与参数细节。

来源：README.md（介绍中的 abliteration / Optuna / co-minimize / 支持模型）

项目知识图谱

中心为项目本体，内环 = 核心功能模块，外环 = 关键技术依赖；按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python（PyTorch / HuggingFace 模型）框架自动 abliteration 工具（directional ablation + TPE 优化）

关键依赖

HuggingFace TransformersOptuna（TPE 优化）abliteration 相关研究实现（Arditi 2024、Lai …

基础设施 / 部署

HuggingFace 模型镜像（heretic-org）；项目页 heretic-project.org；Codeberg 镜像；AGPL-3.0

来源：README.md（介绍、模型/镜像徽章）；GitHub 仓库元数据（language=Python）

快速上手

本页对该工具作中立编目，不提供「如何最大化去对齐」的具体操作指引。客观需要说明的边界：① 上游模型（如 Llama、Gemma、Qwen 等）多数有许可/AUP 明确禁止破坏安全机制或将其用于产生违法/有害内容，对模型权重做去对齐很可能违反原许可，分发去对齐权重亦可能违反 ToS 与法律；② 改后的模型对原本会被拒绝的请求更易配合输出，可能涉及非法/伤害/隐私/未成年人保护等问题，使用前需评估法律与平台合规；③ 若仅用于学术 alignment/robustness 研究，请在受控、合规、不公开分发的环境中进行，并优先使用项目内置评估而不是面向真实用户的部署。

来源：README.md（介绍、AGPL-3.0、模型许可注意）

使用场景

合法且合规的可能用途主要在学术研究：评估模型的 robustness 与 alignment 稳健性、研究 abliteration 与防御技术、做对齐脆弱面的红队评估并把结论反馈给上游。任何把去对齐模型用于生产、对外开放、商用、规模化分发，或用于生成上游模型本可拒绝的有害/违法/隐私侵犯/未成年人不当等内容，都极可能违反模型许可、平台 ToS 与法律，应予避免。

来源：README.md（介绍、研究参考文献）

优势与局限

优势

自动化 + 双目标优化的 abliteration 流水线，工程化程度高
在 KL 散度上自述好于一些手工 abliteration 结果
覆盖多数 dense 与部分 MoE/混合架构
AGPL-3.0 + HF/Codeberg 镜像，便于研究复现

局限

去对齐模型对有害/违法/隐私/未成年人保护类请求更易配合，存在重大滥用风险
对上游模型许可与平台 ToS 可能构成违反，分发与商用风险高
对纯 state-space 等架构不支持，覆盖有限
评测「拒绝率/KL」是有限代理指标，与「实际安全/合规风险」并非等价

来源：README.md（介绍、模型许可与覆盖说明）

总结评价

Heretic 是把 directional ablation（abliteration）+ Optuna TPE 做成自动化的开源工具，能在「拒绝率」和「KL 散度」之间协同优化，得到比手工 abliteration 在能力损伤上更小的去对齐模型，技术与工程都做得扎实。但必须把风险放最前：所谓「移除审查」就是绕过模型的安全训练，做出来的权重对原本会被拒绝的有害/违法/隐私侵犯/未成年人不当等请求更易配合输出；这通常违反上游模型的许可与平台 ToS，分发与商用风险高。本页只作中立编目，不提供操作指引；如确有学术 alignment/robustness 研究需要，请在受控、合规、不公开分发的环境下进行，并尊重上游模型许可与法律。

来源：综合 README.md 的技术定位、对照数据与合规/滥用风险

常见问题

heretic 是什么？

Heretic（p-e-w/heretic）是一个针对开源 Transformer 语言模型自动执行「方向性消融（directional ablation，aka abliteration）」的工具，目标是降低模型的「拒绝」频率，并自述「移除审查/安全对齐」。

heretic 有哪些核心功能？

heretic 的核心功能包括：自动化 abliteration 流水线、双目标优化、模型覆盖、内置评估。

heretic 为什么最近很受关注？

abliteration 是 2024 年提出、并被社区反复改进的去对齐技术；Heretic 把它做成「装好命令行就能跑」的自动化流水线，并自述比手工 abliteration 同等抑制拒绝率的同时 KL 散度更小（更少损伤原能力），加上模型权重也在 HuggingFace 公开，因而 star 涨得很快。

heretic 适合哪些使用场景？

透明度声明
本页内容由 AI（大语言模型）基于以下公开材料自动生成：GitHub README、代码目录结构、依赖文件、Release 信息。分析时间: 2026-06-04 11:31. 质量评分: 100/100.

数据来源：README、GitHub API、依赖文件