VoxCPM 是什么?

VoxCPM(OpenBMB/VoxCPM)是 OpenBMB 推出的「无分词器(tokenizer-free)」文本转语音(TTS)系统,通过端到端的扩散自回归架构直接生成连续语音表示,绕开离散 token 化以获得自然、富表现力的合成。最新的 VoxCPM2 是 2B 参数模型,基于 MiniCPM-4 骨干、在超 200 万小时多语种语音上训练,支持 30 种语言、声音设计(Voice Design)、可控声音克隆与 48kHz 录音室级音质。Apache-2.0 许可,约 19,698 stars,主语言 Python,提供 HuggingFace/ModelScope 权重与在线 Demo。重要前提:含语音克隆能力,须在获得本人同意与合规授权下使用。

⭐ 19,593 Stars 🍴 2,338 Forks Python Apache-2.0 作者: OpenBMB
来源:README.md(标题、介绍、VoxCPM2、Highlights);GitHub 仓库元数据(stars=19698、language=Python、license=Apache-2.0、topics tts/voice-cloning) 查看 GitHub 仓库 →

为什么值得关注

高质量、可控、可克隆的多语种 TTS 需求旺盛,VoxCPM2 以无分词器扩散自回归架构、30 语种、声音设计(仅凭文字描述造新音色)、可控克隆与 48kHz 高保真、实时流式(RTX 4090 上 RTF 低至约 0.3)等卖点切入,且开源权重 + 在线 Demo、由 OpenBMB(MiniCPM 团队)出品,因而关注度高。需说明:训练数据量、RTF 等为项目自述/特定硬件数据,实际依配置;声音克隆属敏感能力,须经同意、合规使用,避免冒充与伪造。截至数据采集约 19,698 stars。

来源:README.md(介绍、Highlights 的多语种/克隆/48kHz/流式);GitHub 仓库元数据(stars=19698、pushed_at 2026-05)

核心功能

无分词器扩散 TTS

端到端扩散自回归直接生成连续语音表征,合成自然富表现力。

来源:README.md(介绍)
30 语种与声音设计

支持 30 语种直接合成,并能仅凭自然语言描述创造全新音色(Voice Design)。

来源:README.md(Highlights 的 Multilingual/Voice Design)
可控/高保真克隆

短参考克隆音色并可引导情感语速,或给参考+转写做完整细节克隆;48kHz 录音室级输出。

来源:README.md(Highlights 的 Controllable/Ultimate Cloning、48kHz)
实时流式

支持实时流式合成,RTX 4090 上 RTF 低至约 0.3,可经 Nano-vLLM 进一步加速。

来源:README.md(Highlights 的 Real-Time Streaming)

技术架构

VoxCPM 的核心是无分词器 TTS:用端到端扩散自回归架构直接生成连续语音表征,而非先离散化为 token。VoxCPM2 为 2B 参数、基于 MiniCPM-4 骨干,配合 AudioVAE V2 的非对称编解码与内置超分,接受 16kHz 参考音频、直接输出 48kHz 高质量音频。能力包括:30 语种直接合成(无需语言标签)、Voice Design(仅凭性别/年龄/语气/情感/语速等自然语言描述造新音色)、可控克隆(短参考片段克隆音色并可引导情感/语速)、Ultimate 克隆(给参考音频+转写以保留全部细节)、上下文感知韵律与实时流式(可经 Nano-vLLM 加速)。以 Python/PyTorch 实现。

来源:README.md(介绍、VoxCPM2、Highlights);GitHub 仓库元数据(language=Python)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) PyTorch MiniCPM-4 骨干 AudioVAE V2(编解码+超分)AudioVAE V2(… Nano-vLLM(可选加速)Nano-vLLM(可选… 无分词器扩散 TTS 30 语种与声音设计 可控/高保真克隆 实时流式 VoxCPM 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python(PyTorch)框架无分词器扩散自回归 TTS(VoxCPM2,2B,MiniCPM-4 骨干)
PyTorchMiniCPM-4 骨干AudioVAE V2(编解码+超分)Nano-vLLM(可选加速)
HuggingFace/ModelScope 权重与 Demo;文档 readthedocs;Apache-2.0
来源:README.md(介绍、VoxCPM2、Highlights、徽章);GitHub 仓库元数据(language=Python)

快速上手

可先用 HuggingFace 在线 Demo(OpenBMB/VoxCPM-Demo)或听 Demo 页样例体验。本地按文档(voxcpm.readthedocs.io)安装 Python/PyTorch 环境并下载 VoxCPM2 权重(HuggingFace/ModelScope),用 30 语种文本直接合成、用自然语言描述做 Voice Design,或给参考音频做可控/完整细节克隆,输出 48kHz;实时流式可结合 Nano-vLLM 加速。注意:克隆他人声音须获得明确同意并遵守相关法律与平台政策,禁止用于冒充、欺诈或误导性用途。
来源:README.md(徽章 Demo/Docs、Highlights)

使用场景

在合规、获得同意的前提下,适合做多语种语音合成与配音、有声内容/播客、无障碍朗读、虚拟角色与游戏配音、以及需要按描述定制音色(Voice Design)或高保真克隆的场景;也适合 TTS/语音生成的研究与产品原型。涉及克隆真实人声时务必获授权、明确标注合成内容,避免伪造与滥用。

来源:README.md(介绍、Highlights)

优势与局限

优势

  • 无分词器扩散架构,合成自然、48kHz 高保真
  • 30 语种 + Voice Design + 可控/完整细节克隆,能力全面
  • 实时流式(RTX 4090 RTF≈0.3,可 Nano-vLLM 加速)
  • 开源权重 + 在线 Demo,OpenBMB 出品、Apache-2.0

局限

  • 语音克隆为敏感能力,须同意与合规,存在冒充/伪造滥用风险
  • 训练数据量、RTF 等为自述/特定硬件数据,实际依配置
  • 2B 模型与高保真推理对算力有要求
  • 克隆/合成质量随参考音频与语言而异
来源:README.md(介绍、VoxCPM2、Highlights)

最新版本

最新为 VoxCPM2:2B 参数、基于 MiniCPM-4、200 万+ 小时多语种数据训练,支持 30 语种、Voice Design、可控克隆与 48kHz 输出(相对 VoxCPM1.5 的升级)。权重见 HuggingFace(openbmb/VoxCPM2)与 ModelScope。仓库最后更新约在 2026 年 5 月,维护活跃。

来源:README.md(VoxCPM2 段、徽章);GitHub pushed_at

总结评价

VoxCPM 是 OpenBMB 的无分词器扩散 TTS 系统,最新 VoxCPM2(2B,基于 MiniCPM-4)支持 30 语种、Voice Design(按描述造音色)、可控/完整声音克隆与 48kHz 高保真、实时流式,开源权重与在线 Demo 齐全,合成自然、能力全面,是高质量多语种 TTS 的有力开源选择。要清楚语音克隆属敏感能力,必须经本人同意与合规使用、避免冒充伪造;自述的训练数据量与 RTF 依配置、2B 高保真推理吃算力、克隆质量随参考与语言而变。在合规前提下,它是 TTS/语音生成方向值得关注的开源项目。

来源:综合 README.md 的定位、架构、能力与合规前提
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-24 23:30. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件