VibeVoice 是什么?

VibeVoice 是微软开源的「前沿语音 AI」模型家族,包含文本转语音(TTS)与语音识别(ASR)。其核心创新是以超低帧率(7.5 Hz)运行的连续语音 tokenizer(声学 + 语义),在保真度与处理长序列的计算效率间取得平衡,并采用「next-token diffusion」框架——用大语言模型理解文本与对话流、用扩散头生成高保真声学细节。许可为 MIT,Python,约 47,389 stars。需要客观说明:微软在发布 TTS 后发现有不符合既定用途的滥用,出于负责任 AI 原则已从仓库移除 VibeVoice-TTS 代码(TTS-1.5B 的在线试用也已禁用);目前主要可用的是 ASR 与实时 TTS-Realtime-0.5B。

⭐ 46,713 Stars 🍴 5,183 Forks Python 作者: microsoft
来源:README.md(Overview、News 2025-09-05 移除 TTS 说明、模型表);GitHub 仓库元数据(stars=47389、license=MIT) 查看 GitHub 仓库 →

为什么值得关注

高质量、开源、长时长的语音 AI 是热点,VibeVoice 来自微软、有 ICLR 2026 Oral(TTS)与技术报告(ASR),且在长时长上很突出——TTS 曾可合成最长 90 分钟、最多 4 说话人的多说话人语音;ASR 能单次处理 60 分钟音频并输出「谁、何时、说了什么」的结构化转写、原生支持 50+ 语言。技术新(7.5Hz 连续 tokenizer + next-token diffusion)、覆盖 TTS/ASR/实时,因而获得高关注。截至数据采集约 47,389 stars。

来源:README.md(Overview、News、模型表、VibeVoice-ASR 段落);GitHub 仓库元数据(stars=47389)

核心功能

长篇 ASR(60 分钟单次)

VibeVoice-ASR 在 64K token 内单次处理最长 60 分钟连续音频,联合做识别、说话人分离与时间戳,输出结构化「谁/何时/说了什么」,避免切片丢失全局上下文。

来源:README.md(VibeVoice-ASR 段落)
自定义热词与多语言

可提供自定义热词(人名、术语、背景)引导识别,显著提升领域内容准确率;原生支持 50+ 语言。

来源:README.md(VibeVoice-ASR → Customized Hotwords、多语言说明)
实时流式 TTS

VibeVoice-Realtime-0.5B 支持流式文本输入与稳健的长篇语音生成,含九种语言的多语言音色与 11 种英文风格音色(实验性)。

来源:README.md(News 2025-12-03/12-16、Models 表)
低帧率连续 tokenizer + 扩散

以 7.5 Hz 连续声学/语义 tokenizer 表示音频,配 next-token diffusion 框架,在保真度与长序列效率间取得平衡。

来源:README.md(Overview)

技术架构

VibeVoice 用连续语音 tokenizer(声学与语义)以 7.5 Hz 的超低帧率表示音频,再以 next-token diffusion 框架结合 LLM(理解文本/对话流)与扩散头(生成声学细节)。家族包含:VibeVoice-ASR-7B——统一的语音转文字模型,在 64K token 长度内单次处理最长 60 分钟连续音频,联合做 ASR + 说话人分离 + 时间戳,输出结构化的「谁/何时/说了什么」,支持自定义热词(人名/术语/背景)提升领域准确率,原生支持 50+ 语言,并已进入 Hugging Face Transformers、支持 vLLM 加速与微调;VibeVoice-Realtime-0.5B——实时 TTS,支持流式文本输入与稳健的长篇语音生成,含多语言与多种英文风格的实验性音色;VibeVoice-TTS-1.5B——长篇多说话人 TTS(ICLR 2026 Oral),但其代码已因滥用顾虑被移除、在线试用禁用。

来源:README.md(Overview、Models、News)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) Hugging Face Transformers(ASR 已集成)Hugging Face T… vLLM(ASR 加速,可选)vLLM(ASR 加速… PyTorch 长篇 ASR(60 分钟单次)长篇 ASR(60 分钟单次… 自定义热词与多语言 实时流式 TTS 低帧率连续 tokenizer + 扩散低帧率连续 tokenizer… VibeVoice 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python框架LLM + next-token diffusion;连续语音 tokenizer(7.5 Hz)
Hugging Face Transformers(ASR 已集成)vLLM(ASR 加速,可选)PyTorch
模型权重在 Hugging Face;提供 Colab、ASR Playground 与微调代码
来源:README.md(Overview、News 的 Transformers/vLLM、模型表、徽章)

快速上手

模型权重发布在 Hugging Face:VibeVoice-ASR-7B 已进入 Transformers,可直接用 Transformers 库调用,并支持 vLLM 加速与微调;ASR 可在官方 Playground(aka.ms/vibevoice-asr)试用。VibeVoice-Realtime-0.5B 提供 Colab 体验,支持流式 TTS。注意:VibeVoice-TTS-1.5B 的代码已被微软移除、在线试用禁用,因此不要期望从本仓库获取 TTS-1.5B 推理代码。使用任何语音合成/识别能力时应遵守负责任 AI 与当地法律——语音合成尤其不得用于伪造、冒充或欺骗。
来源:README.md(模型表、News 的 Transformers/Colab/移除 TTS 说明);负责任使用判断

使用场景

ASR 适合需要长音频结构化转写的场景:会议/播客/访谈的整段转写并标注说话人与时间戳、领域内容用热词提升准确率、多语言转写与下游分析;实时 TTS 适合流式语音输出与长篇朗读/配音。它来自微软、有论文与开放权重,适合语音研究与产品集成。需强调:TTS 合成能力伴随伪造/冒充风险,微软已因此移除 TTS-1.5B 代码——使用语音合成应在合规、获授权、并对合成语音做来源标注的前提下进行。

来源:README.md(VibeVoice-ASR、Realtime TTS、News 移除 TTS);伦理判断

优势与局限

优势

  • 长时长能力突出:ASR 单次 60 分钟、TTS 曾达 90 分钟/4 说话人
  • 技术新颖(7.5Hz 连续 tokenizer + next-token diffusion),效率与保真兼顾
  • ASR 输出结构化(谁/何时/说什么)、支持热词与 50+ 语言,已进 Transformers、支持 vLLM/微调
  • 来自微软、有 ICLR Oral 与技术报告,MIT 开源、权重与 Playground 开放

局限

  • VibeVoice-TTS-1.5B 代码因滥用顾虑已被移除、在线试用禁用,TTS 完整能力不再开放
  • 语音合成存在伪造/冒充风险,使用需合规、获授权并做来源标注
  • 7B ASR 等模型对算力有要求,长音频推理成本不低
  • 部分音色/能力为实验性,质量与稳定性可能不一
来源:README.md(News 移除 TTS、Models、VibeVoice-ASR);伦理判断

最新版本

近期进展:2026-03 VibeVoice-ASR 进入 Hugging Face Transformers 发布,可直接调用;2026-01 开源 VibeVoice-ASR(60 分钟单次、结构化转写、50+ 语言、含微调代码与 vLLM 推理);2025-12 开源并扩充 VibeVoice-Realtime-0.5B(流式 TTS + 多语言/多风格实验性音色)。需注意 2025-09 微软因发现滥用、出于负责任 AI 原则移除了 VibeVoice-TTS 代码。

来源:README.md(News 段落时间线)

总结评价

VibeVoice 是微软在长时长语音 AI 上的有力开源贡献:ASR 能单次处理 60 分钟并输出结构化「谁/何时/说什么」、支持热词与 50+ 语言、已进 Transformers,技术(7.5Hz 连续 tokenizer + next-token diffusion)也很新颖,对语音研究与产品集成价值高。一个重要且诚实的事实是:其 TTS-1.5B 代码因被滥用、出于负责任 AI 原则已被微软移除,TTS 完整能力不再开放——这也提醒语音合成的伪造/冒充风险,使用应合规、获授权并标注来源。整体而言,它在 ASR 与实时 TTS 上仍是高质量、可用的开源选择。

来源:综合 README.md 的技术能力、模型可用性与负责任 AI 相关的 TTS 移除说明
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-24 13:17. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件