opensre 是什么?

OpenSRE 是 Tracer-Cloud 出的开源框架,用来构建运行在你自己基础设施上的 AI SRE(站点可靠性工程)智能体,去调查和处理生产事故。当告警触发时,它自动拉取告警上下文与关联的日志/指标/链路,跨已接系统推理定位异常,生成带证据链的结构化根因分析(RCA)报告,给出后续步骤、可选执行修复动作,并把摘要直接发到 Slack/PagerDuty。更大的野心是补上一块缺失的『SWE-bench for SRE』——一个面向 agentic 基础设施事故响应的开放强化学习环境与基准,配套合成事故仿真和端到端测试。Python,Apache-2.0,可自托管、自带模型(Anthropic/OpenAI/Ollama/Gemini/Bedrock 等)。

⭐ 4,375 Stars 🍴 530 Forks Python Apache-2.0 作者: Tracer-Cloud
来源:README Why OpenSRE/How OpenSRE Works;GitHub desc,license Apache-2.0 查看 GitHub 仓库 →

为什么值得关注

约 5.6k 星,热度来自一个真实且尚未被解决的方向:AI 编码有 SWE-bench 当训练场,而生产事故响应(AI SRE)因为分布式故障更慢、更噪、更难模拟评估,一直没有等价物。OpenSRE 既给出可部署的 AI SRE agent,又明确要建『AI SRE 的基准与训练场』,并接入 60+ 观测/云/事故管理工具,对被 on-call 折磨、想用 AI 做事故根因的 SRE/平台团队很有吸引力。

来源:GitHub 5,617 stars / 722 forks,created 2026-01-13;README Why OpenSRE

核心功能

告警驱动的自动事故调查

告警触发后自动 Fetch(告警上下文 + 关联日志/指标/链路)→ Reason(跨已连系统找异常)→ Generate(带概率根因的结构化调查报告)→ Suggest(后续步骤,可选执行修复)→ Post(摘要直发 Slack/PagerDuty),减少切上下文。

来源:README How OpenSRE Works(5 步)
证据链根因 + runbook 感知

每个结论都链接到背后的数据(evidence-backed),并能读取你的 runbook 自动应用其处置逻辑;还提供预测性故障检测,争取在 page 你之前发现苗头。

来源:README Capabilities(结构化调查/runbook-aware/predictive/evidence-backed)
60+ 工具集成

横跨 LLM(Anthropic/OpenAI/Ollama/Gemini/OpenRouter/NVIDIA NIM/Bedrock)、观测(Grafana/Datadog/CloudWatch/Sentry/Honeycomb/ES)、基础设施(K8s/AWS/GCP/Azure)、数据库与数据平台(Airflow/Kafka/Spark)、事故管理(PagerDuty/Opsgenie/Jira)、通信(Slack/Discord)与 MCP/ACP/OpenClaw 协议。

来源:README Capabilities & integrations/Integrations(分类表)
合成 RCA + 真实 e2e 测试套件

运行打分的合成 RCA 套件(检查根因准确性、必需证据、对抗性红鲱鱼),以及跨云真实场景(Kubernetes、EC2、CloudWatch、Lambda、ECS Fargate、Flink)的端到端测试,并保持 e2e/合成、本地/云的语义化测试命名。

来源:README Why OpenSRE(合成/e2e 测试);tests/synthetic、tests/e2e
自带模型、可自托管部署

完整 LLM 灵活性(BYO model);可部署到 Vercel/EC2/ECS/Railway 等,运行在自己基础设施上;提供一键安装脚本与 Docker、dev container。

来源:README Capabilities(Full LLM flexibility)/Integrations(Agent Deployment)/Install

技术架构

Python 项目(pyproject + uv,app/ 为主体),强调已从早期的 graph/chain 框架层重构为更直接的 code-level agent 架构(见 AGENT_ARCHITECTURE.md)。核心 agent 链路是『Fetch → Reason → Generate → Suggest → Post』:通过大量集成连接器拉取观测/云/事故数据,用 BYO LLM 推理出带证据的 RCA,再经事故管理/通信渠道输出。测试是该项目的一等公民:tests/synthetic 是打分的合成事故仿真(含对抗红鲱鱼),tests/e2e 是接真实云资源的端到端场景,语义化命名区分 e2e/合成与本地/云。配套 infra/、packaging/、install.sh/.ps1、Makefile(make benchmark 等)、CI 与 dev container。整体是『可部署的 AI SRE agent + 一个面向事故响应的评测/训练环境』双重定位的工程,集成广、测试导向强。

来源:README How It Works/Why OpenSRE/Benchmark;tree(app、tests/{synthetic,e2e}、infra、Makefile、pyproject.toml)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) BYO LLM(Anthropic/OpenAI/Ollama/Gemini/Bedrock 等)BYO LLM(Anthr… 观测集成(Grafana/Datadog/CloudWatch/Sentry)观测集成(Grafa… 云/K8s 集成(AWS/GCP/Azure/Kubernetes)云/K8s 集成(AW… MCP / ACP 协议 uv(依赖管理) 告警驱动的自动事故调查 证据链根因 + runbook 感知证据链根因 + runbook… 60+ 工具集成 合成 RCA + 真实 e2e 测试套件合成 RCA + 真实 e2e… 自带模型、可自托管部署 opensre 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python框架自研 code-level agent(重构掉旧 graph/chain 层)
BYO LLM(Anthropic/OpenAI/Ollama/Gemi…观测集成(Grafana/Datadog/CloudWatch/Sent…云/K8s 集成(AWS/GCP/Azure/Kubernetes)MCP / ACP 协议uv(依赖管理)Docker / dev container
自托管,运行在自己基础设施;可部署 Vercel/EC2/ECS/Railway;接入 60+ 观测/云/事故管理工具
来源:README Capabilities/Integrations/Deployment;pyproject.toml

快速上手

用 install.sh(Windows 用 install.ps1)安装,或从源码(uv + pyproject);本地环境配置见 SETUP.md(含 Windows、MCP/OpenClaw)。配 .env 选 LLM provider(自带模型)并接入你的观测/云/事故管理工具,按 DEPLOYMENT.md 部署到 Vercel/EC2/ECS/Railway 等。配好后告警触发即自动调查并把 RCA 报告发到 Slack/PagerDuty。开发与基准见 docs/DEVELOPMENT.md(make benchmark)。注意『可选执行修复』在生产环境有风险,建议先只用调查/建议、人工确认后再让其动手。
来源:README Install/Quick Start/Deployment/How It Works

使用场景

适合:①被 on-call 和事故响应折磨、想用 AI 做跨日志/指标/链路根因分析的 SRE/平台/DevOps 团队;②想要自托管、自带模型、数据不出自己基础设施的事故响应方案;③做 AI SRE 研究、想用其合成/e2e 事故套件做评测与训练的人。不适合:不愿自建与维护一套接 60+ 工具的事故响应系统的小团队;以及希望开箱即用、完全自动修复生产故障的人——自动 remediation 风险高,应人工把关。

来源:README Why OpenSRE/Capabilities,结合自动修复风险推断

优势与局限

优势

  • 方向有分量:明确要补上『AI SRE 的基准与训练场』这块缺失,定位清晰且稀缺
  • 测试导向强:合成 RCA(含对抗红鲱鱼打分)+ 真实云 e2e,事故响应这种难评估的领域难得
  • 集成极广:60+ 观测/云/数据库/事故管理/通信工具 + MCP/ACP,能真正串起分散的事故证据
  • 证据链根因 + runbook 感知,结论可追溯、可应用既有处置逻辑,工程上务实
  • 自托管 + BYO 模型 + Apache-2.0,数据自控、模型灵活,社区活跃、good first issue 友好

局限

  • 自动执行修复(remediation)在生产环境风险高,误操作后果严重,强烈建议人工把关
  • 落地门槛高:要接好观测/云/事故管理多套系统并维护,集成质量参差、配置复杂
  • RCA 准确性依赖模型与数据质量,分布式故障本就难,可能误判或被红鲱鱼带偏
  • README 的 benchmark 表当前为空(No benchmark results yet),实际效果还缺公开量化佐证
  • 仍处早期、架构刚重构(去掉 graph/chain 层),稳定性与最佳实践仍在演进
来源:README How It Works/Benchmark/Why OpenSRE;自动修复与集成的固有风险

最新版本

仓库无正式 GitHub Release,以主分支持续高频开发(最近 push 2026-05-22,创建于 2026-01-13)。README 提到已从旧的 graph/chain 框架层重构为 code-level agent 架构;benchmark 体系(make benchmark)已就位但公开结果暂为空,处于早期但活跃迭代期。

来源:GitHub 无 releases;pushed_at 2026-05-22;README Benchmark/AGENT_ARCHITECTURE 说明

总结评价

OpenSRE 押的是一个真问题:AI 编码有 SWE-bench,生产事故响应却没有等价的训练场和基准,而它既给出可自托管、接 60+ 工具的 AI SRE agent,又认真去建合成 + 真实 e2e 的事故评测体系,证据链根因和 runbook 感知也很务实,5.6k 星反映了 on-call 群体的真实痛点。要清醒两点:一是『自动修复』在生产里风险极高,务必人工把关、先只用调查与建议;二是它落地门槛不低(接一堆系统、自己维护)、仍在早期、公开 benchmark 还空着。对想用 AI 做事故根因、又能自建与把关的 SRE/平台团队,这是当前最值得关注的开源 AI SRE 框架之一;想要开箱即用全自动修复的人则要非常谨慎。

来源:综合 README 定位/能力、tree(测试导向)、风险与发布状态的事实判断
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-22 21:39. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件