autoresearch 是 Andrej Karpathy 的一个实验性项目:给一个 AI 代理(Claude/Codex 等)一套「小而真实」的单 GPU LLM 训练环境,让它整夜自主做研究——代理修改训练代码、训 5 分钟、看指标是否变好、保留或丢弃,如此循环,你早上醒来就能看到一串实验日志和(理想情况下)一个更好的模型。训练代码是 nanochat 的简化单 GPU 版;关键反转是:你作为研究者不直接改 Python,而是去编写 program.md(给代理的上下文,相当于搭建你的「自主研究组」),代理只改 train.py。Python、MIT、约 8.3 万星,是「让 AI 自主做 AI 研究」这一愿景的标志性起点。
来源:README 顶部/How it works、GitHub meta(karpathy/autoresearch,Python,MIT) 查看 GitHub 仓库 →「让 AI 代理自主做 AI 研究」是极具想象力的方向,而 Karpathy 用一个刻意极简、可在单卡整夜跑约 100 个实验的设置把它变得人人可上手、可复现——既是认真的实验范式,又带半开玩笑的「研究已是 AI 代理的领域」的叙事。出自 Karpathy、基于其知名的 nanochat、MIT 开源、设计干净(一个可改文件、一个固定预算、一个指标),加上大量社区 fork(Mac/Win/AMD),使它迅速涨到约 8.3 万星。
来源:README 顶部叙事/Design choices/Notable forks、GitHub meta(stars 82857、created_at 2026-03-06、pushed_at 2026-03-26)给代理一个真实的单 GPU 训练设置,让它整夜自主实验:改 train.py、训练、评估、保留或丢弃、再迭代;每晚约 100 个实验,醒来得到实验日志与更优模型。代理只改 train.py,架构/超参/优化器等全可动。
来源:README 顶部/How it works核心反转:人类不改 Python,而是编写 program.md——给代理的上下文与指令(一个超轻量「skill」),相当于编写你的自主研究组「代码」;默认 program.md 是极简基线,可不断迭代以找到「研究进展最快」的组织方式、加更多代理等。
来源:README 顶部/How it works/Running the agent每次训练固定跑 5 分钟(墙钟,不含启动/编译),无论平台如何——好处一是不同改动(模型大小/批量/架构)直接可比,二是它会在该预算内为你的平台找最优模型;指标用 val_bpb(验证每字节比特,越低越好、与词表大小无关)。约 12 实验/小时。
来源:README How it works/Design choices只有三个关键文件(prepare.py 数据/工具不改、train.py 代理改、program.md 人改),无分布式、无复杂配置,仅 PyTorch 等少量依赖。README 给了在 Mac/小卡上缩小模型的调参指南(如换 TinyStories、降 vocab/seq_len/DEPTH),并列出 Mac/Win/AMD 等社区 fork。
来源:README How it works/Design choices/Platform support/Notable forks项目刻意极小,只有三个要紧文件:prepare.py(固定常量、一次性数据准备——下载训练数据、训 BPE 分词器——与运行时工具如 dataloader/评估,不改);train.py(单文件含完整 GPT 模型、优化器 Muon+AdamW 与训练循环,是代理迭代修改的唯一对象);program.md(给代理的基线指令,由人迭代)。训练在固定 5 分钟墙钟预算内运行,用 val_bpb 衡量。运行方式:先 uv sync、uv run prepare.py,手动 uv run train.py 验证环境,然后在仓库里起一个 Claude/Codex 代理(关闭权限限制)并让它「看 program.md 开新实验」,代理便自主改 train.py、训练、评估、循环。要求单张 NVIDIA GPU(H100 实测)、Python 3.10+、uv;其它平台见社区 fork。MIT。
来源:README How it works/Quick start/Running the agent/Project structure中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
PyTorch + 少量小包(自包含、无分布式)Muon + AdamW 优化器uv(依赖与运行)AI 代理:Claude / Codex 等(自主迭代)适合想动手体验「AI 代理自主做 AI 研究」的人:让 Claude/Codex 整夜自动探索模型架构、超参、优化器,醒来看实验日志与更优模型;也是绝佳的教育/研究范式——通过编写 program.md 来「编排研究组」、理解固定预算下的公平实验比较与自我迭代。对学神经网络/LLM 训练的人,它把 nanochat 缩到单文件可改、单卡可跑,是很好的学习与实验沙盒;社区 fork 让 Mac/Win/AMD 用户也能玩。
来源:README 顶部/How it works/Platform support项目以仓库形式发布(无打 tag Release),结构稳定为三文件 + uv 配置。已支持单 NVIDIA GPU 的自主迭代训练、固定 5 分钟预算与 val_bpb 指标,README 给出小机器调参指南并链接 Mac/Win/AMD 社区 fork。MIT 开源、约 8.3 万星。仓库最近一次更新在 2026-03-26。
来源:README Project structure/Notable forks、GitHub meta pushed_at 2026-03-26、created_at 2026-03-06autoresearch 是 Karpathy 把「让 AI 自主做 AI 研究」这个宏大愿景落成的极简可玩样本:给代理一套真实的单卡 nanochat 训练环境,它整夜改代码、训 5 分钟、看 val_bpb、保留或丢弃地自我迭代,而你只需编写 program.md 来「编排研究组」。设计干净(一个可改文件、一个固定预算、一个指标)、自包含、MIT 开源、教育价值极高,八万多星实至名归。要清楚它默认需要 NVIDIA GPU、自主代理要关权限跑需注意安全与资源、固定预算的结果跨平台不可比、且它是实验/教育范式而非生产框架。作为「AI 自主研究」的标志性起点与绝佳学习沙盒,它既好玩又有启发。
来源:综合 README、How it works、Design choices 与 GitHub meta 的事实判断