OpenBMB/VoxCPM

⭐ 12,255 Stars 🍴 1,414 Forks Python Apache-2.0

OpenBMB/VoxCPM 是一个基于扩散自回归架构的无标记文本到语音系统,支持多语言语音生成、创意声音设计和真实克隆。

来源:据 README 描述 查看 GitHub 仓库 →

为什么值得关注

VoxCPM2 引起了广泛关注,因为它解决了多语言语音合成中的标记问题,填补了无标记语音合成技术的空白。它采用了创新的扩散自回归架构,支持多种语言和声音设计,具有独特的克隆和高质量音频输出功能。

来源:综合 README 描述和项目特征

核心功能

多语言支持

支持30种语言,无需语言标签即可直接合成语音。

来源:据 README 描述
声音设计

允许用户通过自然语言描述创建全新的声音,无需参考音频。

来源:据 README 描述
可控克隆

可以从短参考片段中克隆任何声音,并可选择风格指导来调整情感、节奏和表达,同时保留原始音色。

来源:据 README 描述
终极克隆

提供参考音频及其转录本,模型可以无缝地从参考内容继续,忠实保留每个声音细节。

来源:据 README 描述
高质量音频输出

接受16kHz参考音频,并通过 AudioVAE V2 的不对称编码/解码设计直接输出48kHz录音室质量音频。

来源:据 README 描述

技术架构

项目采用模块化设计,代码目录结构清晰,包括模型、数据、工具和配置等模块。依赖文件表明项目主要使用 PyTorch 作为深度学习框架,并依赖于多个库来处理音频和文本数据。

来源:代码目录结构 + 依赖文件

技术栈

infra: 信息不足,待补充  |  key_deps: torch, torchaudio, transformers, gradio, modelscope, datasets  |  language: Python  |  framework: PyTorch

来源:依赖文件 + 代码目录结构

快速上手

pip install voxcpm python app.py --port 8808
来源:README Installation/Quick Start

使用场景

适用于需要多语言语音合成的应用,如智能客服、语音助手、教育软件等。也适用于需要创建个性化声音或进行声音克隆的创意项目。

来源:README

优势与局限

优势

  • 支持多种语言和声音设计功能
  • 提供高质量音频输出
  • 易于使用和部署

局限

  • 可能需要较高的计算资源
  • 开源时间较短,社区可能不如一些老牌项目活跃
来源:综合 README、代码结构和依赖分析

最新版本

2.0.2 (2026-04-08): fixed some bugs

来源:GitHub Releases

总结评价

VoxCPM2 是一个值得关注的开源项目,对于需要多语言语音合成和声音设计的团队或个人来说,它提供了强大的功能和便利的接口。

透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间:2026-04-10 00:32。质量评分:85/100。 所有结论均标注了数据来源。如发现不准确之处,欢迎反馈。

数据来源: README、GitHub API、依赖文件