voicebox 是什么?

Voicebox(jamiepine/voicebox)是一个本地优先(local-first)的开源 AI 语音工作室,定位为 ElevenLabs(语音输出)+ WisprFlow(语音输入/听写)的二合一免费开源替代。它把语音 I/O 全栈跑在本机:从几秒音频克隆音色、用 7 种 TTS 引擎在 23 种语言生成语音、用全局热键把语音听写到任意文本框,并为支持 MCP 的 AI 代理赋予你选定的音色。强调完全隐私——模型、声音数据与录音都不离开本机。MIT 许可,约 28,461 stars,主语言 TypeScript,桌面应用形式,官网 voicebox.sh。重要前提:含语音克隆能力,须在获得本人同意与合规授权下使用。

⭐ 28,613 Stars 🍴 3,492 Forks TypeScript MIT 作者: jamiepine
来源:README.md(标题、What is Voicebox、Features);GitHub 仓库元数据(stars=28461、language=TypeScript、license=MIT、topics voice-clone/voice-ai) 查看 GitHub 仓库 →

为什么值得关注

语音 I/O(克隆、TTS、听写)需求高,但主流方案多为云端、按量付费且数据上云。Voicebox 把输入与输出两端整合到一个本地、免费、隐私优先的桌面应用,支持多 TTS 引擎、多语言、零样本克隆、后处理效果与 MCP 代理配音,并对标 ElevenLabs/WisprFlow,因而走红。需说明:语音克隆属敏感能力,须经同意、合规使用,避免冒充与伪造;本地跑多模型对硬件(CUDA/MLX 等)有要求,效果随引擎与素材而异。截至数据采集约 28,461 stars。

来源:README.md(What is Voicebox、Features);GitHub 仓库元数据(stars=28461、pushed_at 2026-04、topics cuda/mlx)

核心功能

本地语音 I/O 全栈

听写(语音转文字)+ TTS(文字转语音)二合一,全局热键听写到任意应用,全程本地。

来源:README.md(What is Voicebox)
多引擎多语言 TTS

7 种 TTS 引擎、23 种语言,含 50+ 预设音色与后处理效果。

来源:README.md(Features 的 7 TTS engines/23 languages/preset voices)
零样本语音克隆

用几秒参考音频零样本克隆音色(须经同意/合规使用)。

来源:README.md(Features 的 Voice cloning)
MCP 代理配音 + 隐私

为支持 MCP 的 AI 代理赋予指定音色,模型与声音数据不离开本机。

来源:README.md(What is Voicebox、Complete privacy)

技术架构

Voicebox 是本地优先的桌面应用(TypeScript 前端 + 本地模型推理,支持 CUDA/MLX 加速),把语音 I/O 全栈集成:输入侧用 Whisper 等做听写、全局热键把语音转文字到任意应用;输出侧集成 7 种 TTS 引擎(Qwen3-TTS、Qwen CustomVoice、LuxTTS、Chatterbox Multilingual/Turbo、HumeAI TADA、Kokoro)做多语言合成与零样本克隆;中间用一个本地 LLM 做文本润色与按 profile 的人格设定,桥接输入与输出。还提供后处理效果(变调/混响/延迟/合唱/压缩/滤波)、50+ 预设音色,并通过 API/MCP 让 AI 代理用指定音色发声。模型与数据全程在本机。

来源:README.md(What is Voicebox、Features、topics whisper/qwen3-tts);GitHub 仓库元数据(language=TypeScript)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) TTS 引擎(Qwen3-TTS/Kokoro/Chatterbox/LuxTTS/HumeAI 等)TTS 引擎(Qwen3… Whisper(听写) 本地 LLM(润色/人格)本地 LLM(润色/… CUDA / MLX(加速)CUDA / MLX(加… MCP 本地语音 I/O 全栈 多引擎多语言 TTS 零样本语音克隆 MCP 代理配音 + 隐私 voicebox 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言TypeScript(本地模型推理)框架本地优先 AI 语音工作室(桌面应用)
TTS 引擎(Qwen3-TTS/Kokoro/Chatterbox/L…Whisper(听写)本地 LLM(润色/人格)CUDA / MLX(加速)MCP
桌面应用(GitHub Releases 下载);本地运行;MIT;官网 voicebox.sh
来源:README.md(What is Voicebox、Features、topics);GitHub 仓库元数据(language=TypeScript)

快速上手

从 GitHub Releases 或官网 voicebox.sh 下载桌面应用安装;首次会按需下载所选 TTS/听写模型(本地运行,建议有 CUDA/MLX 等加速硬件)。可用全局热键听写到任意应用、选 TTS 引擎与语言生成语音、用几秒参考音频克隆音色或选预设音色、加后处理效果,并经 API/MCP 给 AI 代理配音。注意:克隆他人声音须获得明确同意并遵守相关法律与平台政策,禁止用于冒充、欺诈或误导。详见 docs.voicebox.sh。
来源:README.md(Download、Features、What is Voicebox)

使用场景

在合规、获得同意的前提下,适合需要本地、隐私优先语音能力的用户与开发者:用语音听写替代打字、做多语言配音与有声内容、给 AI 代理/助手配音、本地试验 TTS 与语音克隆,或作为 ElevenLabs/WisprFlow 的本地免费替代。涉及克隆真实人声时务必获授权、明确标注合成内容,避免伪造与滥用。

来源:README.md(What is Voicebox、Features)

优势与局限

优势

  • 本地优先、隐私友好,语音输入+输出二合一
  • 7 种 TTS 引擎、23 语言、零样本克隆与预设音色、后处理效果
  • 全局热键听写、MCP 代理配音,对标 ElevenLabs/WisprFlow
  • MIT 开源、桌面应用易用、社区关注度高

局限

  • 语音克隆为敏感能力,须同意与合规,存在冒充/伪造风险
  • 本地多模型推理对硬件(CUDA/MLX 等)有要求
  • 克隆/合成质量随引擎、语言与参考素材而异
  • 桌面端依赖本地环境与模型下载
来源:README.md(What is Voicebox、Features、topics)

最新版本

本页未列固定版本号;Voicebox 以桌面应用形式通过 GitHub Releases 发布,版本见 Releases 与官网。仓库最后更新约在 2026 年 4 月。

来源:README.md(Download、Release 徽章);GitHub pushed_at

总结评价

Voicebox 是一个本地优先的开源 AI 语音工作室:把听写与 TTS 二合一,支持 7 种 TTS 引擎、23 语言、零样本克隆、预设音色、后处理效果与给 MCP 代理配音,全程本地、隐私友好,是 ElevenLabs/WisprFlow 的免费本地替代,桌面应用易用、社区关注度高。要清楚语音克隆属敏感能力,必须经本人同意与合规使用、避免冒充伪造;本地多模型推理吃硬件、效果随引擎与素材而变。在合规前提下,它是语音 I/O 方向很全面的本地开源工具。

来源:综合 README.md 的定位、全栈能力、隐私与合规前提
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-26 14:47. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件