ms-swift 是什么?

ms-swift(SWIFT,Scalable lightWeight Infrastructure for Fine-Tuning)是阿里 ModelScope 社区出品的大模型与多模态大模型「微调 + 部署」全流程框架。它覆盖预训练、微调(含 PEFT/全参)、人类对齐、推理、评测、量化与部署,宣称支持 600+ 纯文本大模型与 400+ 多模态大模型(Qwen3/Qwen3-VL/Qwen3-Omni、DeepSeek-R1、GLM4.5、InternVL3.5、Llama4 等),并集成 Megatron 并行与 GRPO 系列强化学习算法。论文被 AAAI 2025 收录,Apache-2.0,约 14,233 stars,主语言 Python,PyPI 包名 ms-swift,文档 swift.readthedocs.io。

⭐ 13,545 Stars 🍴 1,327 Forks Python Apache-2.0 作者: modelscope
来源:README.md(标题、Introduction、Why Choose、徽章);GitHub 仓库元数据(stars=14233、language=Python、license=Apache-2.0) 查看 GitHub 仓库 →

为什么值得关注

大模型微调与对齐是落地刚需,门槛在于模型/方法/硬件繁多、流程割裂。ms-swift 以「一个框架覆盖训练到部署、内置 150+ 数据集、Day-0 支持热门模型、兼容多种 PEFT 与 RL 算法」降低上手成本,并支持国产 Ascend NPU 等多种硬件,背靠 ModelScope 生态,因而在中文社区与微调用户中关注度高。其「600+/400+ 模型、100%+ 提速」等为项目自述与特定条件下数据,实际以版本与场景为准。截至数据采集约 14,233 stars。

来源:README.md(Introduction、Why Choose);GitHub 仓库元数据(stars=14233、pushed_at 2026-05、topics)

核心功能

海量模型全流程支持

支持 600+ 文本与 400+ 多模态大模型,从训练到推理/评测/量化/部署,热门模型 Day-0 支持。

来源:README.md(Introduction、Why Choose: Model Types)
轻量与量化训练

提供 LoRA/QLoRA/DoRA/LoRA+ 等 PEFT,及在 BNB/AWQ/GPTQ 等量化模型上训练,7B 最低约 9GB。

来源:README.md(Why Choose: Lightweight/Quantized Training)
强化学习与对齐算法

集成 GRPO 家族(DAPO/GSPO/CISPO/RLOO 等)与 DPO/KTO/CPO/SimPO/ORPO 等偏好学习,及 Embedding/Reranker 任务。

来源:README.md(Introduction)
分布式与显存优化

支持 Megatron(TP/PP/CP/EP)、DeepSpeed ZeRO、FSDP,及 GaLore/Liger-Kernel/Flash-Attention/序列并行降显存。

来源:README.md(Why Choose: Memory/Distributed)

技术架构

ms-swift 是建立在 PyTorch/ModelScope 生态上的训练-部署全流程框架:训练侧支持 CPT/SFT/DPO/GRPO 等任务,提供 LoRA/QLoRA/DoRA 等轻量微调与全参训练,并接入 Megatron 的 TP/PP/CP/EP 并行、DeepSpeed ZeRO2/3、FSDP/FSDP2 等分布式方案,及 GaLore、Liger-Kernel、Flash-Attention、序列并行(Ulysses/Ring-Attention)等显存优化;强化学习侧覆盖 GRPO 家族(DAPO/GSPO/CISPO 等)与偏好学习(DPO/KTO/CPO/SimPO/ORPO)。推理/评测/部署侧集成 vLLM、SGLang、LMDeploy,量化支持 GPTQ/AWQ/BNB/FP8。用户准备好数据即可一键训练,亦支持自定义数据集。

来源:README.md(Introduction、Why Choose 的训练/优化/部署条目)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) PyTorch ≥2.0 ModelScope ≥1.23ModelScope ≥1… Megatron / DeepSpeed / FSDPMegatron / Dee… vLLM / SGLang / LMDeploy(推理部署)vLLM / SGLang… PEFT、Liger-Kernel、Flash-AttentionPEFT、Liger-Ke… 海量模型全流程支持 轻量与量化训练 强化学习与对齐算法 分布式与显存优化 ms-swift 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python框架大模型微调/对齐/部署全流程框架(基于 PyTorch + ModelScope)
PyTorch ≥2.0ModelScope ≥1.23Megatron / DeepSpeed / FSDPvLLM / SGLang / LMDeploy(推理部署)PEFT、Liger-Kernel、Flash-Attention
PyPI ms-swift;支持 A100/H100/RTX/Ascend NPU 等;Apache-2.0
来源:README.md(徽章、Introduction、Why Choose);GitHub 仓库元数据(language=Python)

快速上手

通过 `pip install ms-swift` 安装(需 Python 与 PyTorch≥2.0、ModelScope)。准备数据集后,用命令行或 Python API 选择任务(如 SFT/DPO/GRPO)、模型与微调方式(LoRA/全参等)一键训练;训练后可用内置推理、评测、量化与部署(vLLM/SGLang/LMDeploy)模块。具体模型/数据集/参数与多卡/Megatron 配置见 swift.readthedocs.io 文档(中英文)。硬件与显存按模型规模选择,量化训练可显著降低资源需求。
来源:README.md(徽章 pip、Introduction、Why Choose、文档链接)

使用场景

适合需要定制或对齐大模型/多模态模型的团队与研究者:对 Qwen、DeepSeek、GLM、InternVL 等做 SFT/继续预训练、用 DPO/GRPO 等做人类对齐与 RL、训练 Embedding/Reranker,并在资源有限时用 LoRA/量化训练;训练完成后用同一框架做推理加速、评测与部署。也适合在 Ascend NPU 等多种硬件上落地,或基于 ModelScope 生态快速试验新模型。

来源:README.md(Introduction、Why Choose、topics)

优势与局限

优势

  • 训练到部署全流程一体,覆盖模型与方法极广
  • PEFT/量化训练降低资源门槛,7B 最低约 9GB
  • 集成 Megatron/DeepSpeed/FSDP 与多种 RL/对齐算法
  • 热门模型 Day-0 支持,中英文文档与 ModelScope 生态完善

局限

  • 功能面广、配置项多,深入使用有学习成本
  • 「600+/400+ 模型、100%+ 提速」为自述/特定条件数据,需按版本场景验证
  • 大模型与多卡训练对硬件与显存要求仍高
  • 依赖 PyTorch/ModelScope 生态版本匹配
来源:README.md(Introduction、Why Choose 的资源/硬件说明)

最新版本

本页未列具体版本号;ms-swift 在 PyPI(ms-swift)持续发布,版本号见 PyPI 与 GitHub Releases,更新以新增模型支持、训练/对齐算法与部署集成为主。论文被 AAAI 2025 收录。仓库最后更新约在 2026 年 5 月,迭代活跃。

来源:README.md(PyPI 徽章、Paper/AAAI 2025);GitHub pushed_at

总结评价

ms-swift 是 ModelScope 出品的大模型/多模态微调与部署全流程框架:覆盖预训练、SFT、DPO/GRPO 对齐、推理、评测、量化与部署,支持海量模型与多种 PEFT/量化/分布式方案,并适配 Ascend NPU 等硬件,文档与生态完善,对要定制或对齐大模型的团队是很全面的工程基座。需注意功能面广带来的学习成本、自述指标需按场景验证、大模型训练仍吃硬件。作为中文社区主流的微调框架之一,覆盖广、上手路径清晰。

来源:综合 README.md 的定位、能力矩阵、生态与适用场景
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-24 15:45. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件