OpenBMB/VoxCPM 是一个基于扩散自回归架构的无标记文本到语音系统,支持多语言语音生成、创意声音设计和真实克隆。
来源:据 README 描述 查看 GitHub 仓库 →VoxCPM2 引起了广泛关注,因为它解决了多语言语音合成中的标记问题,填补了无标记语音合成技术的空白。它采用了创新的扩散自回归架构,支持多种语言和声音设计,具有独特的克隆和高质量音频输出功能。
来源:综合 README 描述和项目特征支持30种语言,无需语言标签即可直接合成语音。
来源:据 README 描述允许用户通过自然语言描述创建全新的声音,无需参考音频。
来源:据 README 描述可以从短参考片段中克隆任何声音,并可选择风格指导来调整情感、节奏和表达,同时保留原始音色。
来源:据 README 描述提供参考音频及其转录本,模型可以无缝地从参考内容继续,忠实保留每个声音细节。
来源:据 README 描述接受16kHz参考音频,并通过 AudioVAE V2 的不对称编码/解码设计直接输出48kHz录音室质量音频。
来源:据 README 描述项目采用模块化设计,代码目录结构清晰,包括模型、数据、工具和配置等模块。依赖文件表明项目主要使用 PyTorch 作为深度学习框架,并依赖于多个库来处理音频和文本数据。
来源:代码目录结构 + 依赖文件infra: 信息不足,待补充 | key_deps: torch, torchaudio, transformers, gradio, modelscope, datasets | language: Python | framework: PyTorch
来源:依赖文件 + 代码目录结构适用于需要多语言语音合成的应用,如智能客服、语音助手、教育软件等。也适用于需要创建个性化声音或进行声音克隆的创意项目。
来源:README2.0.2 (2026-04-08): fixed some bugs
来源:GitHub ReleasesVoxCPM2 是一个值得关注的开源项目,对于需要多语言语音合成和声音设计的团队或个人来说,它提供了强大的功能和便利的接口。