F5-TTS 是论文《F5-TTS: A Fairytaler that Fakes Fluent and Faithful Speech with Flow Matching》的官方代码(来自上海交大 X-LANCE 等机构)。它是一个基于「流匹配(flow matching)」的文本转语音模型——用带 ConvNeXt V2 的 Diffusion Transformer,训练与推理都更快,能做高保真、可零样本克隆音色的语音合成。仓库同时包含 E2 TTS(对论文的复现)和 Sway Sampling(推理期的流步采样策略,显著提升效果)。许可为 MIT,Python,约 14,578 stars,有论文、HF/ModelScope Space 与基础模型。需客观提示:语音克隆能力存在被滥用于伪造他人声音/冒充的风险,使用应获授权、合规并对合成语音标注来源。
来源:README.md(标题、F5-TTS/E2 TTS/Sway Sampling 说明、News、徽章);GitHub 仓库元数据(stars=14578、license=MIT、language=Python) 查看 GitHub 仓库 →高质量、可零样本克隆音色、训练/推理又快的开源 TTS 很受欢迎,F5-TTS 以流匹配 + Diffusion Transformer 的方案在效果与速度上表现突出、有论文背书与活跃维护(v1 基础模型进一步提升),且支持中英文等,是开源 TTS 里被广泛使用与二次开发的代表之一。截至数据采集约 14,578 stars。
来源:README.md(标题、News 的 v1 模型、徽章);GitHub 仓库元数据(stars=14578)基于流匹配的 Diffusion Transformer(ConvNeXt V2),合成流畅、忠实的语音并能零样本克隆参考音色。
来源:README.md(标题、F5-TTS 说明)相比早期方案训练更快、推理更高效;Sway Sampling 在推理期进一步提升效果。
来源:README.md(F5-TTS、Sway Sampling)附带 E2 TTS(Flat-UNet Transformer),是对相关论文的最接近复现,便于对比与研究。
来源:README.md(E2 TTS 说明)基础模型(含中英 Emilia 数据训练版与 v1)发布在 HF/ModelScope/Wisemodel,提供在线 Space;支持 NVIDIA 与 AMD GPU。
来源:README.md(News、徽章、Installation 的 GPU 支持)F5-TTS 的核心是带 ConvNeXt V2 的 Diffusion Transformer,采用流匹配训练,相比早期方案训练更快、推理更高效;仓库还提供 E2 TTS(Flat-UNet Transformer,对应论文的最接近复现)和 Sway Sampling(推理期的流步采样策略,明显提升性能)。它是 Python 项目,依赖 PyTorch(支持 NVIDIA CUDA 与 AMD ROCm,需按 GPU/架构选对版本)与 FFmpeg;基础模型发布在 Hugging Face、ModelScope、Wisemodel,并提供在线 Space 试用。2025/03 发布的 v1 基础模型在训练与推理性能上进一步改进。
来源:README.md(F5-TTS/E2 TTS/Sway Sampling、Installation 的 PyTorch/ROCm、News、模型发布平台)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
torch / torchaudio(CUDA 或 ROCm)FFmpegHugging Face / ModelScope 模型适合需要高质量、可克隆音色 TTS 的研究者与开发者:做语音合成、配音/旁白、零样本音色克隆,以及作为 TTS 研究的强基线(流匹配方案)做对比与二次开发;中英文等场景可用。需强调:语音克隆涉及他人声音的合法权利与伦理——应在获授权、合规并标注来源的前提下使用,禁止用于伪造、冒充或欺诈。
来源:README.md(标题、模型说明);伦理判断本页未列出严格版本号;重要进展是 2025/03/12 发布的 F5-TTS v1 基础模型,训练与推理性能更佳;2024/10 发布了 F5-TTS 与 E2 TTS 基础模型到 HF/ModelScope/Wisemodel。仓库持续维护(含对新 PyTorch/ROCm 的适配)。
来源:README.md(News 段落、Installation 的 ROCm 适配)F5-TTS 是开源 TTS 里很有分量的一个:用流匹配 + Diffusion Transformer 做到高保真、可零样本克隆、训练/推理又快,附 E2 TTS 复现与 Sway Sampling 优化,有论文背书、开放权重和在线 Space,被广泛用作基线与二次开发。对做语音合成/克隆的研究者和开发者很有价值。要带着责任使用——语音克隆涉及他人声音的合法权利与伦理,必须获授权、合规并标注来源,杜绝伪造冒充。作为开源流匹配 TTS 的代表,它质量高、生态成熟。
来源:综合 README.md 的方法、模型与语音克隆伦理考量