Hermes Agent Self-Evolution 是 NousResearch 给自家 Hermes Agent 做的『进化式自我改进』工具:用 DSPy + GEPA(Genetic-Pareto Prompt Evolution,遗传-帕累托提示词进化)自动演化并优化 Hermes 的技能、工具描述、系统提示词乃至代码,通过反思式进化搜索产出可度量更好的版本。关键是无需 GPU 训练——全程靠 API 调用做文本变异、评估、选优,一次优化约 $2-10。GEPA 会读执行轨迹去理解『为什么失败』而非只知道失败了,再提出有针对性的改进。每个演化出的变体都要过测试/体积/语义/人工 PR 评审等护栏。Python,README 标 MIT(GitHub 识别 license 为空)。
来源:README 顶部/How It Works/Guardrails;GitHub desc,license NULL(README MIT) 查看 GitHub 仓库 →约 3.5k 星,热度有两层:一是 NousResearch + Hermes 的关注度;二是它代表了『agent 自我进化』里更工程化、有学术依据的一路——直接用 DSPy + GEPA(ICLR 2026 Oral)这套成熟的反思式提示词进化,而非自造概念,且强调无需 GPU、单次几美元、变体必须过测试与人工 PR 评审。对想自动优化自己 agent 的技能/提示词、又要可控可评测的人很有吸引力。
来源:GitHub 3,468 stars / 377 forks,created 2026-03-09;README How It Works用 DSPy + GEPA 读取执行轨迹理解失败原因,提出有针对性的变异,做遗传-帕累托式进化搜索选出更优变体;GEPA 是 ICLR 2026 Oral、MIT 许可的方法。
来源:README How It Works/Engines全程经 API 调用完成(变异文本、评估结果、选优),不需要 GPU 训练,单次优化运行约 $2-10。
来源:README 顶部说明(No GPU training required)Phase 1 优化技能文件 SKILL.md(已实现,DSPy+GEPA);规划中:工具描述、系统提示词分节、用 Darwinian Evolver 优化工具实现代码、以及持续改进的自动化流水线。
来源:README What It Optimizes(5 阶段表)可用合成 eval 数据评估,也可用来自 Claude Code、Copilot、Hermes 的真实 session 历史(--eval-source sessiondb)作为评测来源,让优化贴近真实使用。
来源:README Quick Start(synthetic / sessiondb)每个演化变体必须过:全量测试套件 100% 通过、体积限制(技能≤15KB、工具描述≤500 字)、缓存兼容(不中途改)、语义保持(不偏离原意),且所有改动走人工 PR 评审、绝不直接提交。
来源:README Guardrails结构很小的 Python 工具(evolution/ 为主体 + datasets/ + tests/ + reports/ + generate_report.py + PLAN.md)。工作流是循环式进化:读取当前 skill/prompt/tool → 生成 eval 数据集 → GEPA 优化器(吃执行轨迹)→ 产出候选变体 → 评估 → 过约束门(测试、体积、benchmark)→ 选出最佳变体 → 对 hermes-agent 仓库发 PR。它把 HERMES_AGENT_REPO 指向你的 Hermes 仓库,对其中的技能文件等做优化。引擎用两套:DSPy + GEPA(MIT,做反思式提示词进化,是已实现的核心),以及 Darwinian Evolver(AGPL,仅作外部 CLI 调用,用于规划中的代码进化)。它本身不实现进化算法,而是编排成熟方法 + 评测数据 + 护栏,把『优化 Hermes 的可改部分』做成可复现、可评审的流程。
来源:README How It Works/Engines;tree(evolution/、datasets/、tests/、PLAN.md)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
DSPy (Stanford)GEPA (Genetic-Pareto Prompt Evolutio…Darwinian Evolver (AGPL,外部 CLI,代码进化)Hermes Agent(优化目标)session 历史(Claude Code/Copilot/Hermes)适合:①用 Hermes Agent、想自动优化其技能/提示词、又要可评测可评审的人;②对 DSPy/GEPA 这套反思式提示词进化感兴趣、想看其在真实 agent 上落地的研究者;③想用真实会话历史驱动优化、并以测试+人工 PR 把关的工程团队。不适合:不使用 Hermes Agent 的人(它专为 Hermes 优化,迁移需改造);想要一键全自动、无人把关地改 agent 的人(它刻意走人工 PR 评审);以及期望它优化代码/工具的人——目前只实现了技能优化,其余仍是 planned。
来源:README 顶部/What It Optimizes/Guardrails,结合定位推断仓库无正式 GitHub Release,以主分支维护,最近一次更新在 2026-03-29(创建于 2026-03-09)。功能上 Phase 1(技能优化)已实现,Phase 2-5(工具描述/系统提示/代码进化/持续改进流水线)仍在规划,处于早期、近期更新偏缓。
来源:GitHub 无 releases;pushed_at 2026-03-29;README What It Optimizes(状态)在『agent 自我进化』这个容易堆概念的方向上,NousResearch 这个项目走的是更靠谱的一路:直接用 DSPy + GEPA 这套有学术依据(ICLR 2026 Oral)、读执行轨迹理解失败原因的反思式提示词进化,去优化 Hermes 的技能/提示词,无需 GPU、单次几美元、还能用真实会话历史评测,并用测试 + 体积 + 语义 + 人工 PR 评审这套严格护栏防止跑偏。方法可信、工程务实。要清醒它的边界:专为 Hermes 而生、目前只实现了技能优化、其余仍 planned,且效果受评测数据与模型影响、需防过拟合,许可证标注也不一致、近期更新偏缓。对用 Hermes、想可控地自动优化 agent 的人,它是个方法扎实的起点;不用 Hermes 或想要全自动改 agent 的人则不对路。
来源:综合 README 方法/护栏/状态、tree 工程结构、许可证与更新状态的事实判断