GLM-5 是什么?

这是智谱(zai-org / Z.ai)GLM-5 系列开源大模型的官方发布仓库,涵盖 GLM-5 与升级版 GLM-5.1,主题是「从 Vibe Coding 走向 Agentic Engineering(智能体工程)」。两者都是面向复杂系统工程与长链路智能体任务的旗舰模型,强调在长时段、多轮工具调用下持续保持高效——而不仅是首轮表现好。仓库本身是模型卡 + 权重下载入口 + 本地部署指南(不含训练代码),权重以 Apache-2.0 协议在 Hugging Face 与 ModelScope 发布,规模为 744B 总参/40B 激活(MoE),提供 BF16 与 FP8 两种精度。GLM-5.1 是其中编码能力更强的次世代旗舰。

⭐ 37 Stars 🍴 0 Forks Apache-2.0 作者: zai-org
来源:README Introduction(GLM-5.1/GLM-5)、Download Model 表、GitHub meta(zai-org/GLM-5,Apache-2.0,homepage z.ai/blog/glm-5)、Citation 查看 GitHub 仓库 →

为什么值得关注

2026 年初开源大模型在编码与智能体方向竞争白热化,GLM-5 系列作为智谱的新旗舰,对标的是「最强开源模型」位置。其热度来自几组对外指标:GLM-5.1 宣称在 SWE-Bench Pro 上达到 SOTA,并在 NL2Repo(仓库级生成)、Terminal-Bench 2.0(真实终端任务)上大幅领先 GLM-5;GLM-5 则称在推理、编码、智能体任务上为「全球开源模型中最强一档」,内部 CC-Bench-V2 上把与 Claude Opus 4.5 的差距收窄,并在衡量长期运营能力的 Vending Bench 2 上位列开源第一(模拟经营一年自动售货机业务、终局账户余额 4,432 美元,接近 Opus 4.5)。叠加权重开源、可本地部署,使其在发布后迅速受到关注。需注意这些基准多由官方给出,第三方复现仍需观察。

来源:README Introduction 各段与基准图(bench_51/bench/realworld_bench/vending_bench)、GitHub meta(stars 3302、created_at 2026-02-09)

核心功能

长链路智能体能力

GLM-5.1 主打在长时间跨度的智能体任务上持续有效:能拆解复杂问题、跑实验、读结果、精准定位阻塞点,通过反复迭代修正策略,在数百轮、上千次工具调用中持续优化——「跑得越久结果越好」,区别于以往模型早期见效后即陷入平台期。

来源:README Introduction「GLM-5.1」段
更大规模 MoE 与更多预训练数据

相比 GLM-4.5,GLM-5 从 355B 总参/32B 激活扩展到 744B 总参/40B 激活,预训练数据从 23T 增至 28.5T tokens,以扩大规模换取智能效率提升。

来源:README Introduction「GLM-5」段、Download Model 表(744B-A40B)
集成 DeepSeek 稀疏注意力(DSA)

GLM-5 引入 DeepSeek Sparse Attention(DSA),在保留长上下文能力的同时大幅降低部署成本,缓解大模型推理的开销问题。

来源:README Introduction「GLM-5」段
异步 RL 后训练(slime)

后训练采用自研的异步强化学习基础设施 slime(THUDM 开源),显著提升 RL 训练吞吐与效率,支持更细粒度的后训练迭代,用以弥合预训练模型「能力」与「卓越」之间的差距。

来源:README Introduction「GLM-5」段、引用的 slime 项目链接
多精度权重与多平台分发

提供 GLM-5.1、GLM-5.1-FP8、GLM-5、GLM-5-FP8 四个权重,均为 744B-A40B,BF16 与 FP8 两种精度,同时上架 Hugging Face 与 ModelScope,按 Apache-2.0 开放。

来源:README Download Model 表
主流推理框架本地部署支持

vLLM、SGLang、xLLM、Ktransformers 均支持本地部署。仓库给出 Docker 镜像与启动示例(如 8 路张量并行、MTP/EAGLE 投机解码、tool-call-parser glm47、reasoning-parser glm45),并附 vLLM recipes、SGLang cookbook 与昇腾(Ascend)部署指南链接。

来源:README「Serve GLM-5 Series Locally」段、example/ascend.md

技术架构

模型为大规模混合专家(MoE)架构:744B 总参数、约 40B 激活参数,引入 DeepSeek Sparse Attention(DSA)以降低长上下文推理成本。训练上,预训练数据 28.5T tokens,后训练使用异步 RL 基础设施 slime。仓库自身是发布与部署仓库,结构精简:README/README_zh(模型卡)、Download Model 指向 HF/ModelScope 权重、resources/(logo 与各基准图)、example/ascend.md(昇腾部署)、skills/glm-master-skill/SKILL.md(配套技能)、requirements.txt 与 pre-commit 配置。部署侧通过 vLLM/SGLang/xLLM/Ktransformers 加载权重对外提供 OpenAI 兼容服务,示例采用张量并行与投机解码(vLLM 的 MTP、SGLang 的 EAGLE),并用 glm47/glm45 解析器处理工具调用与推理输出。

来源:README Introduction 与 Serve 段、仓库目录树(resources/、example/ascend.md、skills/glm-master-skill)、Download Model 表

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) 推理框架:vLLM(v0.20.2)、SGLang(v0.5.11)、xLLM、Ktransformers推理框架:vLLM… 投机解码:MTP(vLLM)/ EAGLE(SGLang)投机解码:MTP(… 解析器:tool-call-parser glm47、reasoning-parser glm45解析器:tool-ca… 后训练:slime 异步 RL 基础设施(THUDM)后训练:slime… 分发:Hugging Face、ModelScope;昇腾(Ascend) 经 xLLM 部署分发:Hugging F… 长链路智能体能力 更大规模 MoE 与更多预训练数据更大规模 MoE 与更多预… 集成 DeepSeek 稀疏注意力(DSA)集成 DeepSeek 稀疏注… 异步 RL 后训练(slime)异步 RL 后训练(slim… 多精度权重与多平台分发 主流推理框架本地部署支持主流推理框架本地部署支… GLM-5 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言模型权重(PyTorch/Safetensors),仓库以 Markdown 模型卡为主框架MoE 大模型(744B 总参/40B 激活)+ DeepSeek Sparse Attention(DSA)
推理框架:vLLM(v0.20.2)、SGLang(v0.5.11)、x…投机解码:MTP(vLLM)/ EAGLE(SGLang)解析器:tool-call-parser glm47、reasoning…后训练:slime 异步 RL 基础设施(THUDM)分发:Hugging Face、ModelScope;昇腾(Ascend…
744B-A40B 权重,BF16/FP8 两种精度;典型部署需 8 路张量并行的多卡环境;提供 Docker 镜像与 OpenAI 兼容服务示例
来源:README Download Model 与 Serve GLM-5 Series Locally 段、example/ascend.md

快速上手

从 Hugging Face 或 ModelScope 下载所需权重(GLM-5.1/GLM-5,BF16 或 FP8)。以 vLLM 为例:拉取镜像 vllm/vllm-openai:v0.20.2-cu129,再 `vllm serve zai-org/GLM-5.1-FP8 --tensor-parallel-size 8 --gpu-memory-utilization 0.85 --speculative-config.method mtp --speculative-config.num_speculative_tokens 3 --tool-call-parser glm47 --reasoning-parser glm45 --enable-auto-tool-choice --served-model-name glm-5.1-fp8`。SGLang 则用 lmsysorg/sglang:v0.5.11 镜像并以 EAGLE 投机解码启动。xLLM(含昇腾)见 example/ascend.md,Ktransformers 见其官方教程。也可直接调用 Z.ai API 平台上的 GLM-5.1 服务,无需自建。注意 MTP 开启时若遇工具调用解析问题,需切到 vllm main 分支。
来源:README「Serve GLM-5 Series Locally」vLLM/SGLang/xLLM/Ktransformers 示例、顶部 API 链接

使用场景

GLM-5 系列定位于复杂系统工程与长链路智能体任务:仓库级代码生成与修复(NL2Repo、SWE-Bench Pro 类)、真实终端/命令行任务(Terminal-Bench 2.0)、前后端工程与需要数百轮迭代、上千次工具调用的长会话智能体;Vending Bench 2 这类长期运营/资源管理模拟也是其强项场景。适合需要可本地部署、可商用(Apache-2.0)开源强模型的团队,用于搭建编码助手、自动化工程 agent 或研究开源模型的智能体上限。普通用户也可经 Z.ai API 或即将上线的 chat.z.ai 使用,无需自建多卡集群。

来源:README Introduction 各段(基准与场景描述)、Download Model 协议、顶部 API/chat 链接

优势与局限

优势

  • 权重开源且 Apache-2.0 可商用,提供 BF16/FP8 多精度,HF 与 ModelScope 双平台分发,部署生态(vLLM/SGLang/xLLM/Ktransformers)齐全。
  • 明确针对长链路智能体与系统工程优化,强调长会话下持续提升的能力,并以 DSA 降低长上下文部署成本。
  • 官方多项基准(SWE-Bench Pro、Terminal-Bench 2.0、CC-Bench-V2、Vending Bench 2)显示其在开源模型中处于领先一档,缩小了与 Claude Opus 4.5 等前沿模型的差距。
  • 工程透明度较高:公开技术报告(arXiv 2602.15763)、后训练用的 slime 基础设施开源,部署示例详尽。

局限

  • 744B-A40B 的规模决定了自建部署门槛高,典型需 8 路张量并行的多卡环境,本地运行成本对多数个人/小团队不友好。
  • 对外公布的基准多为官方/内部评测(如 CC-Bench-V2),与 Claude Opus 4.5 的对比也由官方给出,实际表现仍待第三方独立复现验证。
  • 部署细节存在已知坑点(如 MTP 开启时工具调用解析需切 vllm main 分支),对运维有一定要求。
  • 仓库只含模型卡与部署指南,不含训练代码;要复现训练需结合 slime 等外部项目。
来源:README Download/Serve 段与部署注意、Introduction 基准来源、Citation(技术报告)

最新版本

仓库同时发布 GLM-5 与升级版 GLM-5.1(编码与长链路智能体能力更强,称在 SWE-Bench Pro 上达 SOTA)。权重含 GLM-5.1、GLM-5.1-FP8、GLM-5、GLM-5-FP8 四个,均 744B-A40B。技术报告见 arXiv 2602.15763,GLM-5.1 已可经 Z.ai API 使用、chat.z.ai 即将上线。最近一次仓库更新在 2026-05-15。

来源:README 顶部链接、Introduction、Download Model 表、Citation;GitHub meta pushed_at 2026-05-15

总结评价

GLM-5 / GLM-5.1 是智谱在「开源最强模型」赛道的有力竞争者,方向明确押注复杂系统工程与长链路智能体,以 744B-A40B 的 MoE 规模、DSA 降本和 slime 异步 RL 后训练为支撑,权重 Apache-2.0 开放、部署生态完整。对有多卡资源、需要可商用开源强模型来做编码与工程 agent 的团队,它很值得评估;想轻量使用的可直接走 Z.ai API。需要保持理性的是:领先性主要由官方基准支撑,与前沿闭源模型的差距是否如宣称般收窄,仍要等第三方在自己的任务上复现。整体是一款规模与工程都很认真的开源旗舰,门槛在于部署成本与对官方指标的审慎解读。

来源:综合 README、Download/Serve 段、基准来源与 GitHub meta 的事实判断
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-23 17:53. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件