modelscope/ms-swift

⭐ 13,545 Stars 🍴 1,327 Forks Python Apache-2.0

modelscope/ms-swift 是一个用于大规模模型和跨模态大模型微调和部署的开源框架,支持600+文本大模型和400+跨模态大模型。

来源:据 README 描述 查看 GitHub 仓库 →

为什么值得关注

该项目因其支持多种大模型和模态、集成最新训练技术、提供全流程支持以及丰富的功能特性而受到关注。它填补了大规模模型微调和部署的空白,为开发者提供了强大的工具。

来源:综合 README 描述和项目特征

核心功能

模型支持

支持600+文本大模型和400+跨模态大模型,包括Qwen3, Qwen3.5, InternLM3, GLM4.5, Mistral, DeepSeek-R1, Llama4等。

来源:据 README 描述
训练技术

集成Megatron并行技术,如TP, PP, CP, EP,以及多种GRPO算法家族的强化学习算法,如GRPO, DAPO, GSPO, SAPO, CISPO, RLOO, Reinforce++等。

来源:据 README 描述
训练任务

支持多种训练任务,包括偏好学习算法如DPO, KTO, RM, CPO, SimPO, ORPO,以及嵌入、重排器和序列分类任务。

来源:据 README 描述

技术架构

项目采用模块化设计,代码结构清晰,依赖文件明确。主要模块包括训练、推理、评估、量化、部署等,数据通过模块间接口进行流转。关键技术决策包括支持多种并行训练技术和跨模态训练。

来源:代码目录结构 + 依赖文件

技术栈

infra: 支持多种硬件和平台,包括A10/A100/H100, RTX系列, T4/V100, CPU, MPS, 以及国内硬件Ascend NPU等  |  key_deps: modelscope, transformers, torch  |  language: Python  |  framework: PyTorch

来源:依赖文件 + 代码目录结构

快速上手

pip install ms-swift python train.py --config path/to/config.yaml
来源:README Installation/Quick Start

使用场景

适用于需要微调和部署大规模模型和跨模态大模型的开发者,例如自然语言处理、计算机视觉、多模态学习等领域。

来源:README

优势与局限

优势

  • 支持多种大模型和模态,功能全面;集成最新训练技术,性能优越;提供全流程支持,易于使用。

局限

  • 可能需要较高的计算资源;文档可能需要进一步完善。
来源:综合 README、代码结构和依赖分析

最新版本

v4.1.0 (2026-04-07): 主要变更包括mcore-bridge从ms-swift拆分成独立repo,以及一些bug修复和性能优化。

来源:GitHub Releases

总结评价

modelscope/ms-swift 是一个功能强大的开源框架,对于需要微调和部署大规模模型和跨模态大模型的开发者来说,是一个值得关注和使用的项目。它适合需要处理复杂模型和任务的团队或个人使用。

来源:综合分析
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间:2026-04-13 00:38。质量评分:85/100。 所有结论均标注了数据来源。如发现不准确之处,欢迎反馈。

数据来源: README、GitHub API、依赖文件