SWivid/F5-TTS

⭐ 14,291 Stars 🍴 2,110 Forks Python MIT

F5-TTS 是一个基于扩散 Transformer 和 ConvNeXt V2 的语音合成模型。

来源:据 README 描述 查看 GitHub 仓库 →

核心功能

F5-TTS 模型

基于扩散 Transformer 和 ConvNeXt V2,提供更快的训练和推理性能。

来源:据 README 描述
E2 TTS 模型

Flat-UNet Transformer 模型,提供与论文最接近的复现。

来源:据 README 描述
Sway Sampling

推理时的流步骤采样策略,显著提高性能。

来源:据 README 描述

技术架构

代码结构包括 .github 工作流程、Dockerfile、LICENSE、README.md、数据目录、源代码目录等。

来源:代码目录结构

技术栈

key_deps: torch, torchaudio  |  language: Python  |  framework: PyTorch

来源:据 README 描述

快速上手

创建 conda 环境并安装 FFmpeg,然后安装 PyTorch,最后可以选择安装为 pip 包或本地可编辑版本。
来源:据 README 描述

使用场景

适用于语音合成、语音转换等场景。

来源:据 README 描述

最新版本

1.1.18 (2026-03-24): 添加阿拉伯语模型细节,添加 F5TTS v1 Small + LibriTT。

来源:GitHub Releases
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间:2026-04-06 12:32。质量评分:100/100。 所有结论均标注了数据来源。如发现不准确之处,欢迎反馈。

数据来源: README、GitHub API、依赖文件