autoresearch 是什么?

autoresearch 是 Andrej Karpathy 的一个实验性项目:给一个 AI 代理(Claude/Codex 等)一套「小而真实」的单 GPU LLM 训练环境,让它整夜自主做研究——代理修改训练代码、训 5 分钟、看指标是否变好、保留或丢弃,如此循环,你早上醒来就能看到一串实验日志和(理想情况下)一个更好的模型。训练代码是 nanochat 的简化单 GPU 版;关键反转是:你作为研究者不直接改 Python,而是去编写 program.md(给代理的上下文,相当于搭建你的「自主研究组」),代理只改 train.py。Python、MIT、约 8.3 万星,是「让 AI 自主做 AI 研究」这一愿景的标志性起点。

⭐ 1,002 Stars 🍴 153 Forks Python 作者: karpathy
来源:README 顶部/How it works、GitHub meta(karpathy/autoresearch,Python,MIT) 查看 GitHub 仓库 →

为什么值得关注

「让 AI 代理自主做 AI 研究」是极具想象力的方向,而 Karpathy 用一个刻意极简、可在单卡整夜跑约 100 个实验的设置把它变得人人可上手、可复现——既是认真的实验范式,又带半开玩笑的「研究已是 AI 代理的领域」的叙事。出自 Karpathy、基于其知名的 nanochat、MIT 开源、设计干净(一个可改文件、一个固定预算、一个指标),加上大量社区 fork(Mac/Win/AMD),使它迅速涨到约 8.3 万星。

来源:README 顶部叙事/Design choices/Notable forks、GitHub meta(stars 82857、created_at 2026-03-06、pushed_at 2026-03-26)

核心功能

AI 代理自主迭代训练

给代理一个真实的单 GPU 训练设置,让它整夜自主实验:改 train.py、训练、评估、保留或丢弃、再迭代;每晚约 100 个实验,醒来得到实验日志与更优模型。代理只改 train.py,架构/超参/优化器等全可动。

来源:README 顶部/How it works
用 program.md 编排「研究组」

核心反转:人类不改 Python,而是编写 program.md——给代理的上下文与指令(一个超轻量「skill」),相当于编写你的自主研究组「代码」;默认 program.md 是极简基线,可不断迭代以找到「研究进展最快」的组织方式、加更多代理等。

来源:README 顶部/How it works/Running the agent
固定 5 分钟预算 + 统一指标

每次训练固定跑 5 分钟(墙钟,不含启动/编译),无论平台如何——好处一是不同改动(模型大小/批量/架构)直接可比,二是它会在该预算内为你的平台找最优模型;指标用 val_bpb(验证每字节比特,越低越好、与词表大小无关)。约 12 实验/小时。

来源:README How it works/Design choices
极简自包含、可缩放到小机器

只有三个关键文件(prepare.py 数据/工具不改、train.py 代理改、program.md 人改),无分布式、无复杂配置,仅 PyTorch 等少量依赖。README 给了在 Mac/小卡上缩小模型的调参指南(如换 TinyStories、降 vocab/seq_len/DEPTH),并列出 Mac/Win/AMD 等社区 fork。

来源:README How it works/Design choices/Platform support/Notable forks

技术架构

项目刻意极小,只有三个要紧文件:prepare.py(固定常量、一次性数据准备——下载训练数据、训 BPE 分词器——与运行时工具如 dataloader/评估,不改);train.py(单文件含完整 GPT 模型、优化器 Muon+AdamW 与训练循环,是代理迭代修改的唯一对象);program.md(给代理的基线指令,由人迭代)。训练在固定 5 分钟墙钟预算内运行,用 val_bpb 衡量。运行方式:先 uv sync、uv run prepare.py,手动 uv run train.py 验证环境,然后在仓库里起一个 Claude/Codex 代理(关闭权限限制)并让它「看 program.md 开新实验」,代理便自主改 train.py、训练、评估、循环。要求单张 NVIDIA GPU(H100 实测)、Python 3.10+、uv;其它平台见社区 fork。MIT。

来源:README How it works/Quick start/Running the agent/Project structure

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) PyTorch + 少量小包(自包含、无分布式)PyTorch + 少量… Muon + AdamW 优化器Muon + AdamW… uv(依赖与运行) AI 代理:Claude / Codex 等(自主迭代)AI 代理:Claude… AI 代理自主迭代训练 用 program.md 编排「研究组」用 program.md 编排「… 固定 5 分钟预算 + 统一指标固定 5 分钟预算 + 统… 极简自包含、可缩放到小机器极简自包含、可缩放到小… autoresearch 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python(3.10+)框架PyTorch(简化版 nanochat 单 GPU 训练)
PyTorch + 少量小包(自包含、无分布式)Muon + AdamW 优化器uv(依赖与运行)AI 代理:Claude / Codex 等(自主迭代)
单张 NVIDIA GPU(H100 实测);CPU/MPS/AMD 等见社区 fork;固定 5 分钟训练预算
来源:README Quick start/Requirements/Platform support、train.py 说明

快速上手

需单张 NVIDIA GPU(H100 实测)、Python 3.10+、uv。装 uv 后:`uv sync` 装依赖、`uv run prepare.py` 一次性下载数据并训分词器(约 2 分钟)、`uv run train.py` 手动跑一次约 5 分钟的训练验证环境。环境 OK 后进入自主研究:在仓库里起一个 Claude/Codex 代理(按 README 关闭权限限制),提示如「看一下 program.md,我们来开个新实验,先做 setup」,代理就会自主改 train.py、训练、按 val_bpb 评估、保留或丢弃、循环。想在 Mac/小卡上跑可参考 README 的缩小调参指南(换 TinyStories、降 vocab/MAX_SEQ_LEN/DEPTH 等)或用对应社区 fork。
来源:README Quick start/Running the agent/Platform support

使用场景

适合想动手体验「AI 代理自主做 AI 研究」的人:让 Claude/Codex 整夜自动探索模型架构、超参、优化器,醒来看实验日志与更优模型;也是绝佳的教育/研究范式——通过编写 program.md 来「编排研究组」、理解固定预算下的公平实验比较与自我迭代。对学神经网络/LLM 训练的人,它把 nanochat 缩到单文件可改、单卡可跑,是很好的学习与实验沙盒;社区 fork 让 Mac/Win/AMD 用户也能玩。

来源:README 顶部/How it works/Platform support

优势与局限

优势

  • 范式新颖且可复现:把「AI 自主做 AI 研究」做成单卡整夜约 100 实验的可上手设置,固定预算 + 单指标让实验公平可比。
  • 设计极简:一个可改文件(train.py)+ 一个人编排文件(program.md)+ 固定 5 分钟预算,diff 可审、scope 可控。
  • 出自 Karpathy、基于 nanochat、MIT 开源、自包含无分布式,教育与实验价值极高。
  • 社区活跃,已有 Mac/Win/AMD 等多平台 fork 与小机器调参指南。

局限

  • 硬件门槛:默认要单张 NVIDIA GPU(H100 实测),小机器需用 fork 或大幅缩小模型,效果与速度受限。
  • 自主代理需关闭权限限制运行并自动改代码/训练,存在执行安全与资源消耗考量,应在受控环境进行。
  • 固定 5 分钟预算让结果与他人平台不可比,且其优化目标是该预算下的最优、不等于通用最佳。
  • 本质是实验/教育范式而非生产训练框架,自主研究的产出质量取决于 program.md 与所用代理。
来源:README Design choices/Platform support/Running the agent

最新版本

项目以仓库形式发布(无打 tag Release),结构稳定为三文件 + uv 配置。已支持单 NVIDIA GPU 的自主迭代训练、固定 5 分钟预算与 val_bpb 指标,README 给出小机器调参指南并链接 Mac/Win/AMD 社区 fork。MIT 开源、约 8.3 万星。仓库最近一次更新在 2026-03-26。

来源:README Project structure/Notable forks、GitHub meta pushed_at 2026-03-26、created_at 2026-03-06

总结评价

autoresearch 是 Karpathy 把「让 AI 自主做 AI 研究」这个宏大愿景落成的极简可玩样本:给代理一套真实的单卡 nanochat 训练环境,它整夜改代码、训 5 分钟、看 val_bpb、保留或丢弃地自我迭代,而你只需编写 program.md 来「编排研究组」。设计干净(一个可改文件、一个固定预算、一个指标)、自包含、MIT 开源、教育价值极高,八万多星实至名归。要清楚它默认需要 NVIDIA GPU、自主代理要关权限跑需注意安全与资源、固定预算的结果跨平台不可比、且它是实验/教育范式而非生产框架。作为「AI 自主研究」的标志性起点与绝佳学习沙盒,它既好玩又有启发。

来源:综合 README、How it works、Design choices 与 GitHub meta 的事实判断
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-23 20:40. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件