GLM-5 深度解析：架构、场景与部署指南（37★）

为什么值得关注

2026 年初开源大模型在编码与智能体方向竞争白热化，GLM-5 系列作为智谱的新旗舰，对标的是「最强开源模型」位置。其热度来自几组对外指标：GLM-5.1 宣称在 SWE-Bench Pro 上达到 SOTA，并在 NL2Repo（仓库级生成）、Terminal-Bench 2.0（真实终端任务）上大幅领先 GLM-5；GLM-5 则称在推理、编码、智能体任务上为「全球开源模型中最强一档」，内部 CC-Bench-V2 上把与 Claude Opus 4.5 的差距收窄，并在衡量长期运营能力的 Vending Bench 2 上位列开源第一（模拟经营一年自动售货机业务、终局账户余额 4,432 美元，接近 Opus 4.5）。叠加权重开源、可本地部署，使其在发布后迅速受到关注。需注意这些基准多由官方给出，第三方复现仍需观察。

来源：README Introduction 各段与基准图（bench_51/bench/realworld_bench/vending_bench）、GitHub meta（stars 3302、created_at 2026-02-09）

核心功能

长链路智能体能力

GLM-5.1 主打在长时间跨度的智能体任务上持续有效：能拆解复杂问题、跑实验、读结果、精准定位阻塞点，通过反复迭代修正策略，在数百轮、上千次工具调用中持续优化——「跑得越久结果越好」，区别于以往模型早期见效后即陷入平台期。

来源：README Introduction「GLM-5.1」段

更大规模 MoE 与更多预训练数据

相比 GLM-4.5，GLM-5 从 355B 总参/32B 激活扩展到 744B 总参/40B 激活，预训练数据从 23T 增至 28.5T tokens，以扩大规模换取智能效率提升。

来源：README Introduction「GLM-5」段、Download Model 表（744B-A40B）

集成 DeepSeek 稀疏注意力（DSA）

GLM-5 引入 DeepSeek Sparse Attention（DSA），在保留长上下文能力的同时大幅降低部署成本，缓解大模型推理的开销问题。

来源：README Introduction「GLM-5」段

异步 RL 后训练（slime）

后训练采用自研的异步强化学习基础设施 slime（THUDM 开源），显著提升 RL 训练吞吐与效率，支持更细粒度的后训练迭代，用以弥合预训练模型「能力」与「卓越」之间的差距。

来源：README Introduction「GLM-5」段、引用的 slime 项目链接

多精度权重与多平台分发

提供 GLM-5.1、GLM-5.1-FP8、GLM-5、GLM-5-FP8 四个权重，均为 744B-A40B，BF16 与 FP8 两种精度，同时上架 Hugging Face 与 ModelScope，按 Apache-2.0 开放。

来源：README Download Model 表

主流推理框架本地部署支持

vLLM、SGLang、xLLM、Ktransformers 均支持本地部署。仓库给出 Docker 镜像与启动示例（如 8 路张量并行、MTP/EAGLE 投机解码、tool-call-parser glm47、reasoning-parser glm45），并附 vLLM recipes、SGLang cookbook 与昇腾(Ascend)部署指南链接。

来源：README「Serve GLM-5 Series Locally」段、example/ascend.md

技术架构

模型为大规模混合专家（MoE）架构：744B 总参数、约 40B 激活参数，引入 DeepSeek Sparse Attention（DSA）以降低长上下文推理成本。训练上，预训练数据 28.5T tokens，后训练使用异步 RL 基础设施 slime。仓库自身是发布与部署仓库，结构精简：README/README_zh（模型卡）、Download Model 指向 HF/ModelScope 权重、resources/（logo 与各基准图）、example/ascend.md（昇腾部署）、skills/glm-master-skill/SKILL.md（配套技能）、requirements.txt 与 pre-commit 配置。部署侧通过 vLLM/SGLang/xLLM/Ktransformers 加载权重对外提供 OpenAI 兼容服务，示例采用张量并行与投机解码（vLLM 的 MTP、SGLang 的 EAGLE），并用 glm47/glm45 解析器处理工具调用与推理输出。

来源：README Introduction 与 Serve 段、仓库目录树（resources/、example/ascend.md、skills/glm-master-skill）、Download Model 表

项目知识图谱

中心为项目本体，内环 = 核心功能模块，外环 = 关键技术依赖；按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言模型权重（PyTorch/Safetensors），仓库以 Markdown 模型卡为主框架MoE 大模型（744B 总参/40B 激活）+ DeepSeek Sparse Attention（DSA）

关键依赖

推理框架：vLLM（v0.20.2）、SGLang（v0.5.11）、x…投机解码：MTP（vLLM）/ EAGLE（SGLang）解析器：tool-call-parser glm47、reasoning…后训练：slime 异步 RL 基础设施（THUDM）分发：Hugging Face、ModelScope；昇腾(Ascend…

基础设施 / 部署

744B-A40B 权重，BF16/FP8 两种精度；典型部署需 8 路张量并行的多卡环境；提供 Docker 镜像与 OpenAI 兼容服务示例

来源：README Download Model 与 Serve GLM-5 Series Locally 段、example/ascend.md

快速上手

从 Hugging Face 或 ModelScope 下载所需权重（GLM-5.1/GLM-5，BF16 或 FP8）。以 vLLM 为例：拉取镜像 vllm/vllm-openai:v0.20.2-cu129，再 `vllm serve zai-org/GLM-5.1-FP8 --tensor-parallel-size 8 --gpu-memory-utilization 0.85 --speculative-config.method mtp --speculative-config.num_speculative_tokens 3 --tool-call-parser glm47 --reasoning-parser glm45 --enable-auto-tool-choice --served-model-name glm-5.1-fp8`。SGLang 则用 lmsysorg/sglang:v0.5.11 镜像并以 EAGLE 投机解码启动。xLLM（含昇腾）见 example/ascend.md，Ktransformers 见其官方教程。也可直接调用 Z.ai API 平台上的 GLM-5.1 服务，无需自建。注意 MTP 开启时若遇工具调用解析问题，需切到 vllm main 分支。

来源：README「Serve GLM-5 Series Locally」vLLM/SGLang/xLLM/Ktransformers 示例、顶部 API 链接

使用场景

GLM-5 系列定位于复杂系统工程与长链路智能体任务：仓库级代码生成与修复（NL2Repo、SWE-Bench Pro 类）、真实终端/命令行任务（Terminal-Bench 2.0）、前后端工程与需要数百轮迭代、上千次工具调用的长会话智能体；Vending Bench 2 这类长期运营/资源管理模拟也是其强项场景。适合需要可本地部署、可商用（Apache-2.0）开源强模型的团队，用于搭建编码助手、自动化工程 agent 或研究开源模型的智能体上限。普通用户也可经 Z.ai API 或即将上线的 chat.z.ai 使用，无需自建多卡集群。

来源：README Introduction 各段（基准与场景描述）、Download Model 协议、顶部 API/chat 链接

优势与局限

优势

权重开源且 Apache-2.0 可商用，提供 BF16/FP8 多精度，HF 与 ModelScope 双平台分发，部署生态（vLLM/SGLang/xLLM/Ktransformers）齐全。
明确针对长链路智能体与系统工程优化，强调长会话下持续提升的能力，并以 DSA 降低长上下文部署成本。
官方多项基准（SWE-Bench Pro、Terminal-Bench 2.0、CC-Bench-V2、Vending Bench 2）显示其在开源模型中处于领先一档，缩小了与 Claude Opus 4.5 等前沿模型的差距。
工程透明度较高：公开技术报告（arXiv 2602.15763）、后训练用的 slime 基础设施开源，部署示例详尽。

局限

744B-A40B 的规模决定了自建部署门槛高，典型需 8 路张量并行的多卡环境，本地运行成本对多数个人/小团队不友好。
对外公布的基准多为官方/内部评测（如 CC-Bench-V2），与 Claude Opus 4.5 的对比也由官方给出，实际表现仍待第三方独立复现验证。
部署细节存在已知坑点（如 MTP 开启时工具调用解析需切 vllm main 分支），对运维有一定要求。
仓库只含模型卡与部署指南，不含训练代码；要复现训练需结合 slime 等外部项目。

来源：README Download/Serve 段与部署注意、Introduction 基准来源、Citation（技术报告）

总结评价

GLM-5 / GLM-5.1 是智谱在「开源最强模型」赛道的有力竞争者，方向明确押注复杂系统工程与长链路智能体，以 744B-A40B 的 MoE 规模、DSA 降本和 slime 异步 RL 后训练为支撑，权重 Apache-2.0 开放、部署生态完整。对有多卡资源、需要可商用开源强模型来做编码与工程 agent 的团队，它很值得评估；想轻量使用的可直接走 Z.ai API。需要保持理性的是：领先性主要由官方基准支撑，与前沿闭源模型的差距是否如宣称般收窄，仍要等第三方在自己的任务上复现。整体是一款规模与工程都很认真的开源旗舰，门槛在于部署成本与对官方指标的审慎解读。

来源：综合 README、Download/Serve 段、基准来源与 GitHub meta 的事实判断

透明度声明
本页内容由 AI（大语言模型）基于以下公开材料自动生成：GitHub README、代码目录结构、依赖文件、Release 信息。分析时间: 2026-05-23 17:53. 质量评分: 100/100.

数据来源：README、GitHub API、依赖文件

GLM-5 是什么？