hermes-agent-self-evolution 是什么?

Hermes Agent Self-Evolution 是 NousResearch 给自家 Hermes Agent 做的『进化式自我改进』工具:用 DSPy + GEPA(Genetic-Pareto Prompt Evolution,遗传-帕累托提示词进化)自动演化并优化 Hermes 的技能、工具描述、系统提示词乃至代码,通过反思式进化搜索产出可度量更好的版本。关键是无需 GPU 训练——全程靠 API 调用做文本变异、评估、选优,一次优化约 $2-10。GEPA 会读执行轨迹去理解『为什么失败』而非只知道失败了,再提出有针对性的改进。每个演化出的变体都要过测试/体积/语义/人工 PR 评审等护栏。Python,README 标 MIT(GitHub 识别 license 为空)。

⭐ 2,638 Stars 🍴 278 Forks Python 作者: NousResearch
来源:README 顶部/How It Works/Guardrails;GitHub desc,license NULL(README MIT) 查看 GitHub 仓库 →

为什么值得关注

约 3.5k 星,热度有两层:一是 NousResearch + Hermes 的关注度;二是它代表了『agent 自我进化』里更工程化、有学术依据的一路——直接用 DSPy + GEPA(ICLR 2026 Oral)这套成熟的反思式提示词进化,而非自造概念,且强调无需 GPU、单次几美元、变体必须过测试与人工 PR 评审。对想自动优化自己 agent 的技能/提示词、又要可控可评测的人很有吸引力。

来源:GitHub 3,468 stars / 377 forks,created 2026-03-09;README How It Works

核心功能

GEPA 反思式提示词进化

用 DSPy + GEPA 读取执行轨迹理解失败原因,提出有针对性的变异,做遗传-帕累托式进化搜索选出更优变体;GEPA 是 ICLR 2026 Oral、MIT 许可的方法。

来源:README How It Works/Engines
无需 GPU、低成本

全程经 API 调用完成(变异文本、评估结果、选优),不需要 GPU 训练,单次优化运行约 $2-10。

来源:README 顶部说明(No GPU training required)
优化技能/工具/提示/代码(分阶段)

Phase 1 优化技能文件 SKILL.md(已实现,DSPy+GEPA);规划中:工具描述、系统提示词分节、用 Darwinian Evolver 优化工具实现代码、以及持续改进的自动化流水线。

来源:README What It Optimizes(5 阶段表)
真实/合成评测数据

可用合成 eval 数据评估,也可用来自 Claude Code、Copilot、Hermes 的真实 session 历史(--eval-source sessiondb)作为评测来源,让优化贴近真实使用。

来源:README Quick Start(synthetic / sessiondb)
严格护栏 + 人工 PR 评审

每个演化变体必须过:全量测试套件 100% 通过、体积限制(技能≤15KB、工具描述≤500 字)、缓存兼容(不中途改)、语义保持(不偏离原意),且所有改动走人工 PR 评审、绝不直接提交。

来源:README Guardrails

技术架构

结构很小的 Python 工具(evolution/ 为主体 + datasets/ + tests/ + reports/ + generate_report.py + PLAN.md)。工作流是循环式进化:读取当前 skill/prompt/tool → 生成 eval 数据集 → GEPA 优化器(吃执行轨迹)→ 产出候选变体 → 评估 → 过约束门(测试、体积、benchmark)→ 选出最佳变体 → 对 hermes-agent 仓库发 PR。它把 HERMES_AGENT_REPO 指向你的 Hermes 仓库,对其中的技能文件等做优化。引擎用两套:DSPy + GEPA(MIT,做反思式提示词进化,是已实现的核心),以及 Darwinian Evolver(AGPL,仅作外部 CLI 调用,用于规划中的代码进化)。它本身不实现进化算法,而是编排成熟方法 + 评测数据 + 护栏,把『优化 Hermes 的可改部分』做成可复现、可评审的流程。

来源:README How It Works/Engines;tree(evolution/、datasets/、tests/、PLAN.md)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) DSPy (Stanford)DSPy GEPA (Genetic-Pareto Prompt Evolution, ICLR 2026 Oral)GEPA Darwinian Evolver (AGPL,外部 CLI,代码进化)Darwinian Evol… Hermes Agent(优化目标)Hermes Agent(… session 历史(Claude Code/Copilot/Hermes)session 历史(C… GEPA 反思式提示词进化 无需 GPU、低成本 优化技能/工具/提示/代码(分阶段)优化技能/工具/提示/代… 真实/合成评测数据 严格护栏 + 人工 PR 评审严格护栏 + 人工 PR 评… hermes-agent-self-ev… 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python框架DSPy + GEPA(反思式提示词进化)
DSPy (Stanford)GEPA (Genetic-Pareto Prompt Evolutio…Darwinian Evolver (AGPL,外部 CLI,代码进化)Hermes Agent(优化目标)session 历史(Claude Code/Copilot/Hermes)
本地运行,全程 API 调用、无需 GPU;优化目标是你本地的 hermes-agent 仓库;单次约 $2-10
来源:README Engines/Quick Start;pyproject.toml

快速上手

`git clone` 后 `pip install -e .[dev]`,把 HERMES_AGENT_REPO 指向你的 Hermes 仓库(如 ~/.hermes/hermes-agent)。优化一个技能:`python -m evolution.skills.evolve_skill --skill github-code-review --iterations 10 --eval-source synthetic`(用合成评测),或 `--eval-source sessiondb` 用 Claude Code/Copilot/Hermes 的真实会话历史评测。它会进化候选、过测试/体积/语义护栏后选出最佳变体并对 hermes-agent 发 PR,由你人工评审合入。单次运行成本约 $2-10。完整架构与计划见 PLAN.md。
来源:README Quick Start/Guardrails

使用场景

适合:①用 Hermes Agent、想自动优化其技能/提示词、又要可评测可评审的人;②对 DSPy/GEPA 这套反思式提示词进化感兴趣、想看其在真实 agent 上落地的研究者;③想用真实会话历史驱动优化、并以测试+人工 PR 把关的工程团队。不适合:不使用 Hermes Agent 的人(它专为 Hermes 优化,迁移需改造);想要一键全自动、无人把关地改 agent 的人(它刻意走人工 PR 评审);以及期望它优化代码/工具的人——目前只实现了技能优化,其余仍是 planned。

来源:README 顶部/What It Optimizes/Guardrails,结合定位推断

优势与局限

优势

  • 用成熟有学术依据的方法(DSPy + GEPA,ICLR 2026 Oral)而非自造概念,可信度高
  • 工程化务实:无需 GPU、单次几美元、可用真实会话历史评测,门槛与成本低
  • 护栏严谨:测试 100% 通过 + 体积/语义限制 + 缓存兼容 + 人工 PR 评审、绝不直接提交
  • GEPA 读执行轨迹理解失败原因再针对性变异,比盲改更有方向
  • NousResearch 官方出品、目标明确(优化 Hermes 的可改部分),MIT

局限

  • 强绑定 Hermes Agent:为优化 Hermes 而生,用于其他 agent 需改造
  • 当前只实现了技能(SKILL.md)优化,工具描述/系统提示/代码进化等均为 planned
  • 效果取决于评测数据质量与底层模型,进化优化可能过拟合评测、需谨慎验证
  • 代码进化引擎 Darwinian Evolver 是 AGPL 外部 CLI,引入需注意许可证
  • 许可证标注不一致(README MIT vs GitHub NULL),更新偏停滞(最近 push 2026-03)
来源:README Engines/What It Optimizes/Guardrails;许可证与更新状态

最新版本

仓库无正式 GitHub Release,以主分支维护,最近一次更新在 2026-03-29(创建于 2026-03-09)。功能上 Phase 1(技能优化)已实现,Phase 2-5(工具描述/系统提示/代码进化/持续改进流水线)仍在规划,处于早期、近期更新偏缓。

来源:GitHub 无 releases;pushed_at 2026-03-29;README What It Optimizes(状态)

总结评价

在『agent 自我进化』这个容易堆概念的方向上,NousResearch 这个项目走的是更靠谱的一路:直接用 DSPy + GEPA 这套有学术依据(ICLR 2026 Oral)、读执行轨迹理解失败原因的反思式提示词进化,去优化 Hermes 的技能/提示词,无需 GPU、单次几美元、还能用真实会话历史评测,并用测试 + 体积 + 语义 + 人工 PR 评审这套严格护栏防止跑偏。方法可信、工程务实。要清醒它的边界:专为 Hermes 而生、目前只实现了技能优化、其余仍 planned,且效果受评测数据与模型影响、需防过拟合,许可证标注也不一致、近期更新偏缓。对用 Hermes、想可控地自动优化 agent 的人,它是个方法扎实的起点;不用 Hermes 或想要全自动改 agent 的人则不对路。

来源:综合 README 方法/护栏/状态、tree 工程结构、许可证与更新状态的事实判断
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-23 00:01. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件