VoxCPM(OpenBMB/VoxCPM)是 OpenBMB 推出的「无分词器(tokenizer-free)」文本转语音(TTS)系统,通过端到端的扩散自回归架构直接生成连续语音表示,绕开离散 token 化以获得自然、富表现力的合成。最新的 VoxCPM2 是 2B 参数模型,基于 MiniCPM-4 骨干、在超 200 万小时多语种语音上训练,支持 30 种语言、声音设计(Voice Design)、可控声音克隆与 48kHz 录音室级音质。Apache-2.0 许可,约 19,698 stars,主语言 Python,提供 HuggingFace/ModelScope 权重与在线 Demo。重要前提:含语音克隆能力,须在获得本人同意与合规授权下使用。
来源:README.md(标题、介绍、VoxCPM2、Highlights);GitHub 仓库元数据(stars=19698、language=Python、license=Apache-2.0、topics tts/voice-cloning) 查看 GitHub 仓库 →高质量、可控、可克隆的多语种 TTS 需求旺盛,VoxCPM2 以无分词器扩散自回归架构、30 语种、声音设计(仅凭文字描述造新音色)、可控克隆与 48kHz 高保真、实时流式(RTX 4090 上 RTF 低至约 0.3)等卖点切入,且开源权重 + 在线 Demo、由 OpenBMB(MiniCPM 团队)出品,因而关注度高。需说明:训练数据量、RTF 等为项目自述/特定硬件数据,实际依配置;声音克隆属敏感能力,须经同意、合规使用,避免冒充与伪造。截至数据采集约 19,698 stars。
来源:README.md(介绍、Highlights 的多语种/克隆/48kHz/流式);GitHub 仓库元数据(stars=19698、pushed_at 2026-05)端到端扩散自回归直接生成连续语音表征,合成自然富表现力。
来源:README.md(介绍)支持 30 语种直接合成,并能仅凭自然语言描述创造全新音色(Voice Design)。
来源:README.md(Highlights 的 Multilingual/Voice Design)短参考克隆音色并可引导情感语速,或给参考+转写做完整细节克隆;48kHz 录音室级输出。
来源:README.md(Highlights 的 Controllable/Ultimate Cloning、48kHz)支持实时流式合成,RTX 4090 上 RTF 低至约 0.3,可经 Nano-vLLM 进一步加速。
来源:README.md(Highlights 的 Real-Time Streaming)VoxCPM 的核心是无分词器 TTS:用端到端扩散自回归架构直接生成连续语音表征,而非先离散化为 token。VoxCPM2 为 2B 参数、基于 MiniCPM-4 骨干,配合 AudioVAE V2 的非对称编解码与内置超分,接受 16kHz 参考音频、直接输出 48kHz 高质量音频。能力包括:30 语种直接合成(无需语言标签)、Voice Design(仅凭性别/年龄/语气/情感/语速等自然语言描述造新音色)、可控克隆(短参考片段克隆音色并可引导情感/语速)、Ultimate 克隆(给参考音频+转写以保留全部细节)、上下文感知韵律与实时流式(可经 Nano-vLLM 加速)。以 Python/PyTorch 实现。
来源:README.md(介绍、VoxCPM2、Highlights);GitHub 仓库元数据(language=Python)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
PyTorchMiniCPM-4 骨干AudioVAE V2(编解码+超分)Nano-vLLM(可选加速)在合规、获得同意的前提下,适合做多语种语音合成与配音、有声内容/播客、无障碍朗读、虚拟角色与游戏配音、以及需要按描述定制音色(Voice Design)或高保真克隆的场景;也适合 TTS/语音生成的研究与产品原型。涉及克隆真实人声时务必获授权、明确标注合成内容,避免伪造与滥用。
来源:README.md(介绍、Highlights)最新为 VoxCPM2:2B 参数、基于 MiniCPM-4、200 万+ 小时多语种数据训练,支持 30 语种、Voice Design、可控克隆与 48kHz 输出(相对 VoxCPM1.5 的升级)。权重见 HuggingFace(openbmb/VoxCPM2)与 ModelScope。仓库最后更新约在 2026 年 5 月,维护活跃。
来源:README.md(VoxCPM2 段、徽章);GitHub pushed_atVoxCPM 是 OpenBMB 的无分词器扩散 TTS 系统,最新 VoxCPM2(2B,基于 MiniCPM-4)支持 30 语种、Voice Design(按描述造音色)、可控/完整声音克隆与 48kHz 高保真、实时流式,开源权重与在线 Demo 齐全,合成自然、能力全面,是高质量多语种 TTS 的有力开源选择。要清楚语音克隆属敏感能力,必须经本人同意与合规使用、避免冒充伪造;自述的训练数据量与 RTF 依配置、2B 高保真推理吃算力、克隆质量随参考与语言而变。在合规前提下,它是 TTS/语音生成方向值得关注的开源项目。
来源:综合 README.md 的定位、架构、能力与合规前提