GenericAgent 是什么?

GenericAgent 是一个极简、可自我进化的自主 Agent 框架:核心仅约 3K 行代码,用 9 个原子工具 + 约百行的 Agent Loop,赋予任意 LLM 对本地电脑的系统级控制(浏览器、终端、文件系统、键鼠、屏幕视觉、ADB 移动设备)。它的设计哲学是『不预设技能、靠进化获得能力』——每解决一个新任务就把执行路径自动固化为 Skill,用得越久、技能树越茂盛,长成一棵从 3K 行种子代码生长出来、完全属于你的专属技能树。它还自举实证:仓库从 git init 到每条 commit 都由 GenericAgent 自己完成。主打极省 token(上下文 <30K,约为其他 agent 的零头)。Python,MIT。

⭐ 11,648 Stars 🍴 1,337 Forks Python MIT 作者: lsdefine
来源:README 项目简介/核心特性;GitHub desc,license MIT 查看 GitHub 仓库 →

为什么值得关注

约 1.2 万星,热度来自两个反直觉卖点:一是『极简』——核心才 3K 行、Agent Loop 约百行,与动辄庞大的 agent 框架形成鲜明对比;二是『自进化 + 极省 token』——不预设技能、靠把任务沉淀成 Skill 成长,且上下文不到 30K(号称 6 倍省 token、更少幻觉),并用『整个仓库都是它自己 git 出来的』做自举实证,话题性很强。

来源:GitHub 11,977 stars / 1,374 forks,created 2026-01-16;README 核心特性/自举实证

核心功能

9 个原子工具掌控全机

code_run(跑任意 Python/PowerShell)、file_read/write/patch、web_scan(感知网页)、web_execute_js(控浏览器)、ask_user(人机确认)、update_working_checkpoint 与 start_long_term_update(记忆)——9 个原子工具构成与外部世界交互的全部基础能力。

来源:README 最小工具集(9 个工具表)
自我进化的技能树

遇新任务→自主摸索(装依赖/写脚本/调试验证)→把执行路径固化为 Skill 写入记忆→下次同类任务一句话直接调用;用几周后形成一套别人没有的专属技能树。

来源:README 自我进化机制(流程图/示例)
分层记忆系统

L0 元规则(基础行为/约束)、L1 记忆索引(极简路由召回)、L2 全局事实(长期稳定知识)、L3 任务 Skills/SOPs(可复用流程)、L4 会话归档(长程召回),记忆在执行中持续沉淀。

来源:README 架构设计-分层记忆系统
运行时动态扩展能力

通过 code_run 可在运行时动态装 Python 包、写新脚本、调外部 API 或控制硬件,把临时能力固化为永久工具——具备动态创造新工具的能力。

来源:README 能力扩展机制
极简循环 + 多模型 + 多前端

核心自主执行循环(感知→推理→调用工具→写记忆→循环)仅约百行(agent_loop.py);兼容 Claude/Gemini/Kimi/MiniMax 等主流模型、跨平台;提供桌面宠物等前端与 IM bot 接口、聊天命令。

来源:README 架构(执行循环)/核心特性/使用方式;agent_loop.py、frontends/

技术架构

刻意做小的 Python 项目,核心文件就在根目录:agent_loop.py(约百行的自主执行循环)、agentmain.py/ga.py/ga_cli(入口与 CLI)、llmcore.py(多模型接入)、TMWebDriver.py(浏览器驱动,注入真实浏览器保留登录态)、simphtml.py(网页感知)、memory/(分层记忆 L0-L4 的落地)、reflect/(反思/长期记忆提炼)、plugins/(扩展)、frontends/(桌面宠物等前端)、hub.pyw/launch.pyw(启动)。整体哲学是『最小工具集 × 分层记忆 × 自主循环』:9 个原子工具是与世界交互的底座,所有更高能力都不是预置的,而是 agent 在解决任务时用 code_run 现写、再固化成 Skill 存入记忆层,因此代码量小但能力可生长。靠极短上下文(<30K)控制 token 与噪声。设计上把『框架』压到最薄、把『能力』交给进化,是它与重型 agent 框架的根本区别。

来源:README 架构设计/能力扩展;tree(agent_loop.py、llmcore.py、memory/、reflect/、TMWebDriver.py)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) 多 LLM(Claude/Gemini/Kimi/MiniMax 等)多 LLM(Claude… 浏览器驱动(注入真实浏览器保登录态)浏览器驱动(注入… PowerShell/Python(code_run)PowerShell/Pyt… ADB(移动设备控制)ADB(移动设备控… 分层记忆 L0-L4 9 个原子工具掌控全机 自我进化的技能树 分层记忆系统 运行时动态扩展能力 极简循环 + 多模型 + 多前端极简循环 + 多模型 +… GenericAgent 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python框架自研极简 agent 框架(~3K 行)
多 LLM(Claude/Gemini/Kimi/MiniMax 等)浏览器驱动(注入真实浏览器保登录态)PowerShell/Python(code_run)ADB(移动设备控制)分层记忆 L0-L4
本地运行、跨平台;系统级控制本机(终端/文件/键鼠/屏幕/浏览器/手机);需自配模型 key;上下文 <30K
来源:README 核心特性/架构;tree、mykey_template.py

快速上手

面向人类用户:clone 后按 README 配置 mykey(从模板填模型 key),用 ga.py/ga.cmd 或 launch.pyw 启动,可选桌面宠物等前端、或接 IM bot。面向 LLM agent 的安装路径 README 也单列了说明。启动后用自然语言下任务,第一次它会自主摸索(装依赖、写脚本、调试)并把成功路径存成 Skill,之后同类任务一句话直达。注意它会执行任意代码并系统级控制你的电脑(终端/文件/键鼠/浏览器),建议在可控环境使用并善用 ask_user 确认。
来源:README 快速开始(给人类/给 LLM Agent)/使用方式

使用场景

适合:①想要一个极简、可读、能系统级操作本机并随用随长技能的个人自动化 agent 的开发者/极客;②重视低 token 成本、想要更少幻觉/更高成功率的人;③想研究『最小框架 + 自进化技能树』这套理念的人;④希望把重复电脑操作(监控、收发、跨应用流程)沉淀成可复用 Skill 的用户。不适合:不接受 agent 在本机执行任意代码与系统级控制的人(安全风险大);以及需要团队级、强权限管控、稳定生产保障的企业场景。

来源:README 核心特性/自我进化机制,结合系统级控制风险推断

优势与局限

优势

  • 极简且可读:核心约 3K 行、循环约百行、9 个原子工具,零负担部署、易理解易改
  • 自进化理念干净:不预置技能、靠把任务固化成 Skill 成长,越用越强、形成专属技能树
  • 省 token 是真差异化:上下文 <30K,噪声少、幻觉低、成本低一个数量级
  • 执行力强:注入真实浏览器保登录态、可跑任意代码、控键鼠/屏幕/手机,能真正完成端到端任务
  • 多模型兼容、跨平台、自举实证(仓库自己 git 出来),并有桌面宠物/IM 等多前端

局限

  • 系统级控制 + 执行任意代码是高危:agent 误操作可改坏文件、误用账号、产生不可控副作用,安全边界需用户自负
  • 自进化质量依赖模型,弱模型可能固化错误 Skill 或在摸索中出错
  • 极简意味着权限/沙箱/审计等保护薄弱,更适合个人可控环境而非多用户/企业
  • Skill 树是个人化、隐式积累的,可移植性、可审计性与团队协作较弱
  • 对比/评测多为作者自述,实际成功率与省 token 收益随任务和模型波动,需自行验证
来源:README 架构/对比;系统级自主执行的固有风险

最新版本

仓库无正式 GitHub Release,以主分支持续高频开发(最近 push 2026-05-22,创建于 2026-01-16),并标榜全部提交由 GenericAgent 自主完成。README 列有路线图与最新动态,处于活跃迭代期。

来源:GitHub 无 releases;pushed_at 2026-05-22;README 路线图/自举实证

总结评价

GenericAgent 用一种很有想法的方式回应『agent 框架该多重』:把框架压到约 3K 行、9 个原子工具、百行循环,然后把能力交给进化——每个任务沉淀成 Skill,越用越长出一棵专属技能树,还顺手把省 token(<30K 上下文)做成硬差异化,连仓库本身都是它自己 git 出来的,话题与完成度都够,1.2 万星不意外。但它的代价也很直白:系统级控制本机 + 执行任意代码意味着高安全风险、保护薄弱,更适合个人可控环境而非企业;自进化质量也依赖模型。对喜欢极简、爱折腾、能自担风险的个人开发者,它是当前最有意思的自进化 agent 之一;要权限管控和稳定生产的场景则需谨慎。

来源:综合 README 定位/理念/架构、tree(极简)、安全风险与发布状态的事实判断
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-22 23:22. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件