Voicebox(jamiepine/voicebox)是一个本地优先(local-first)的开源 AI 语音工作室,定位为 ElevenLabs(语音输出)+ WisprFlow(语音输入/听写)的二合一免费开源替代。它把语音 I/O 全栈跑在本机:从几秒音频克隆音色、用 7 种 TTS 引擎在 23 种语言生成语音、用全局热键把语音听写到任意文本框,并为支持 MCP 的 AI 代理赋予你选定的音色。强调完全隐私——模型、声音数据与录音都不离开本机。MIT 许可,约 28,461 stars,主语言 TypeScript,桌面应用形式,官网 voicebox.sh。重要前提:含语音克隆能力,须在获得本人同意与合规授权下使用。
来源:README.md(标题、What is Voicebox、Features);GitHub 仓库元数据(stars=28461、language=TypeScript、license=MIT、topics voice-clone/voice-ai) 查看 GitHub 仓库 →语音 I/O(克隆、TTS、听写)需求高,但主流方案多为云端、按量付费且数据上云。Voicebox 把输入与输出两端整合到一个本地、免费、隐私优先的桌面应用,支持多 TTS 引擎、多语言、零样本克隆、后处理效果与 MCP 代理配音,并对标 ElevenLabs/WisprFlow,因而走红。需说明:语音克隆属敏感能力,须经同意、合规使用,避免冒充与伪造;本地跑多模型对硬件(CUDA/MLX 等)有要求,效果随引擎与素材而异。截至数据采集约 28,461 stars。
来源:README.md(What is Voicebox、Features);GitHub 仓库元数据(stars=28461、pushed_at 2026-04、topics cuda/mlx)听写(语音转文字)+ TTS(文字转语音)二合一,全局热键听写到任意应用,全程本地。
来源:README.md(What is Voicebox)7 种 TTS 引擎、23 种语言,含 50+ 预设音色与后处理效果。
来源:README.md(Features 的 7 TTS engines/23 languages/preset voices)用几秒参考音频零样本克隆音色(须经同意/合规使用)。
来源:README.md(Features 的 Voice cloning)为支持 MCP 的 AI 代理赋予指定音色,模型与声音数据不离开本机。
来源:README.md(What is Voicebox、Complete privacy)Voicebox 是本地优先的桌面应用(TypeScript 前端 + 本地模型推理,支持 CUDA/MLX 加速),把语音 I/O 全栈集成:输入侧用 Whisper 等做听写、全局热键把语音转文字到任意应用;输出侧集成 7 种 TTS 引擎(Qwen3-TTS、Qwen CustomVoice、LuxTTS、Chatterbox Multilingual/Turbo、HumeAI TADA、Kokoro)做多语言合成与零样本克隆;中间用一个本地 LLM 做文本润色与按 profile 的人格设定,桥接输入与输出。还提供后处理效果(变调/混响/延迟/合唱/压缩/滤波)、50+ 预设音色,并通过 API/MCP 让 AI 代理用指定音色发声。模型与数据全程在本机。
来源:README.md(What is Voicebox、Features、topics whisper/qwen3-tts);GitHub 仓库元数据(language=TypeScript)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
TTS 引擎(Qwen3-TTS/Kokoro/Chatterbox/L…Whisper(听写)本地 LLM(润色/人格)CUDA / MLX(加速)MCP在合规、获得同意的前提下,适合需要本地、隐私优先语音能力的用户与开发者:用语音听写替代打字、做多语言配音与有声内容、给 AI 代理/助手配音、本地试验 TTS 与语音克隆,或作为 ElevenLabs/WisprFlow 的本地免费替代。涉及克隆真实人声时务必获授权、明确标注合成内容,避免伪造与滥用。
来源:README.md(What is Voicebox、Features)本页未列固定版本号;Voicebox 以桌面应用形式通过 GitHub Releases 发布,版本见 Releases 与官网。仓库最后更新约在 2026 年 4 月。
来源:README.md(Download、Release 徽章);GitHub pushed_atVoicebox 是一个本地优先的开源 AI 语音工作室:把听写与 TTS 二合一,支持 7 种 TTS 引擎、23 语言、零样本克隆、预设音色、后处理效果与给 MCP 代理配音,全程本地、隐私友好,是 ElevenLabs/WisprFlow 的免费本地替代,桌面应用易用、社区关注度高。要清楚语音克隆属敏感能力,必须经本人同意与合规使用、避免冒充伪造;本地多模型推理吃硬件、效果随引擎与素材而变。在合规前提下,它是语音 I/O 方向很全面的本地开源工具。
来源:综合 README.md 的定位、全栈能力、隐私与合规前提