heretic 是什么?

Heretic 是一个用于自动去除语言模型审查的工具,通过先进的定向消融技术,实现无需昂贵后训练的审查去除。

⭐ 23,358 Stars 🍴 2,494 Forks Python AGPL-3.0 作者: p-e-w
来源:据 README 描述 查看 GitHub 仓库 →

为什么值得关注

Heretic 受关注的原因包括其自动化的审查去除功能,填补了语言模型审查去除领域的空白,并采用了先进的定向消融技术,提供了高效且易于使用的解决方案。

来源:综合 README 描述和项目特征

核心功能

自动审查去除

Heretic 通过定向消融技术自动去除语言模型的审查,无需人工干预,支持多种语言模型和架构。

来源:据 README 描述
参数优化

Heretic 使用基于 TPE 的参数优化器,结合 Optuna,自动寻找最佳的消融参数,以最小化拒绝次数和 KL 散度。

来源:据 README 描述
研究功能

Heretic 提供研究功能,如生成残差向量的图和打印残差几何细节,支持对模型内部语义的深入分析。

来源:据 README 描述

技术架构

Heretic 采用模块化设计,代码结构清晰,依赖文件明确。主要模块包括模型处理、参数优化、评估和分析等。数据流从模型加载、消融处理到评估和输出,关键技术决策包括定向消融和参数优化。

来源:代码目录结构 + 依赖文件

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) accelerate bitsandbytes datasets huggingface-hub immutabledict 自动审查去除 参数优化 研究功能 heretic 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python框架PyTorch
acceleratebitsandbytesdatasetshuggingface-hubimmutabledictkernelslangdetectlm-eval[hf]numpyoptunapeftpsutilpy-cpuinfopydantic-settingsquestionaryrichtomli-wtqdmtransformers
无特定基础设施要求,可在普通 Python 环境中运行
来源:依赖文件 + 代码目录结构

快速上手

pip install -U heretic-llm heretic Qwen/Qwen3-4B-Instruct-2507
来源:README Installation/Quick Start

使用场景

Heretic 适用于需要去除语言模型审查的组织和个人,例如内容生成、对话系统、教育等领域。它可以用于去除敏感话题的审查,提高模型的可用性和准确性。

来源:README

优势与局限

优势

  • 优势1:自动化审查去除,无需人工干预
  • 优势2:支持多种语言模型和架构
  • 优势3:提供研究功能,支持模型内部语义分析

局限

  • 局限1:不支持所有类型的模型,如纯状态空间模型和某些研究架构
  • 局限2:需要较高的计算资源
来源:综合 README、代码结构和依赖分析

最新版本

v1.3.0 (2026-05-05): 实现可重现的运行

来源:GitHub Releases

总结评价

Heretic 是一个值得关注的开源项目,对于需要去除语言模型审查的组织和个人来说,它提供了一个高效且易于使用的解决方案。它适合对语言模型审查去除有需求的团队和个人使用。

来源:综合分析
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-06-02 18:31. 质量评分: 85/100.

数据来源:README、GitHub API、依赖文件