NeMo(NVIDIA-NeMo/NeMo)是 NVIDIA 的可扩展生成式 AI 框架,面向研究者与 PyTorch 开发者。历史上它覆盖 LLM、多模态与语音;2026 年起本仓库已转向聚焦音频、语音与多模态 LLM——即语音识别(ASR)、文本转语音(TTS)与 Speech LLM(仓库标题现为「NVIDIA NeMo Speech」)。它配套大量 NVIDIA 开放权重模型(如 Parakeet/Canary ASR、Magpie TTS、Nemotron-Speech 等)。Apache-2.0 许可,约 17,252 stars,主语言 Python,PyPI 包名 nemo-toolkit。需注意仓库正在拆分转型,NeMo Speech 首个发布计划在 2026 年 6 月,稳定版可用 26.02 NGC 容器。
来源:README.md(标题、Introduction、Updates、徽章);GitHub 仓库元数据(stars=17252、language=Python、license=Apache-2.0) 查看 GitHub 仓库 →NeMo 是 NVIDIA 官方的生成式/语音 AI 框架,长期是 ASR/TTS 等语音任务的主流开源选择之一,并随 NVIDIA 持续发布刷新榜单的开放模型(如 Canary-Qwen-2.5B 在英文 Open ASR Leaderboard 上 5.63% WER、Parakeet V3/Canary V2 支持 25 种欧洲语言、Magpie TTS 多语种、Nemotron VoiceChat 全双工对话)。背靠 NVIDIA 硬件与 NIM 部署生态、模型与 demo 齐全,关注度高。需说明本仓库正在拆分转型为「Speech」专注库,更广模态的最后版本见 v2.7.0。WER 等指标来自其榜单/模型卡,应以原文为准。截至数据采集约 17,252 stars。
来源:README.md(Updates、Introduction);GitHub 仓库元数据(stars=17252、pushed_at 2026-05)提供 Parakeet、Canary 等模型,支持多语种识别与翻译,部分模型在 Open ASR 榜单表现领先。
来源:README.md(Updates 的 Parakeet/Canary、Introduction)含 Magpie TTS 等多语种语音合成模型(如支持 9 种语言)。
来源:README.md(Updates 的 MagpieTTS)支持 Speech LLM 与多模态 LLM,Nemotron VoiceChat 提供低延迟、可打断的全双工语音对话。
来源:README.md(Introduction、Updates 的 Nemotron VoiceChat)支持离线/流式推理(可在延迟-准确率间选点),并与 NVIDIA NIM、NGC 容器、HuggingFace 权重打通。
来源:README.md(Updates 的 streaming、NIM/NGC 链接)NeMo 是基于 PyTorch 的模块化框架,以「collections」组织不同领域(现聚焦 ASR、TTS、Speech LLM 与多模态)。它提供模型定义、训练/微调与推理流程,并与 NVIDIA 的开放权重模型(Parakeet、Canary、Magpie TTS、Nemotron-Speech 等)和部署(NIM、NGC 容器、HuggingFace)打通。语音方向支持离线与流式推理(如 Nemotron-Speech-Streaming 允许在延迟-准确率 Pareto 曲线上选点、Parakeet-unified 提供最低约 160ms 流式)。当前仓库正经历拆分:本仓库转向音频/语音/多模态 LLM,更全模态能力见历史 v2.7.0,稳定运行推荐 26.02 NGC 容器。
来源:README.md(Introduction、Updates 的拆分/流式说明、NGC/NIM 链接);GitHub 仓库元数据(language=Python)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
PyTorchNVIDIA 开放模型(Parakeet/Canary/Magpie/N…NVIDIA NIM / NGC 容器HuggingFace 权重适合做语音与多模态 LLM 的研究者与工程师:构建 ASR(多语种识别/翻译)、TTS(多语种合成)、Speech LLM 与全双工语音对话应用;直接使用 NVIDIA 开放权重模型快速起步,或在 NeMo 上微调与训练;并借助 NIM/NGC 在 NVIDIA 硬件上部署。也适合需要流式低延迟语音能力或对接 NVIDIA 生态的场景。需结合 GPU 资源与当前仓库拆分状态规划。
来源:README.md(Introduction、Updates、NIM/NGC)本仓库正处拆分转型:NeMo Speech 首个发布计划在 2026 年 6 月,当前稳定运行推荐 26.02 NGC 容器;更全模态支持的最后版本为 v2.7.0。近期模型更新密集:2026-04 Parakeet-unified-en-0.6b、2026-03 Nemotron VoiceChat/Magpie TTS v2602/Nemotron-Speech-Streaming v2603 等。仓库最后更新约在 2026 年 5 月。
来源:README.md(Updates 时间线、版本说明);GitHub pushed_atNeMo 是 NVIDIA 的生成式/语音 AI 框架,现聚焦 ASR、TTS 与 Speech LLM:配套 Parakeet、Canary、Magpie TTS、Nemotron-Speech 等大量高质量开放模型,支持离线/流式与全双工对话,并可经 NIM/NGC 在 NVIDIA 硬件部署,是语音方向成熟且活跃的开源选择。要清楚本仓库正在拆分转型(NeMo Speech 计划 2026 年 6 月首发、过渡期用 26.02 NGC 容器、更全模态见 v2.7.0)、深度绑定 NVIDIA 生态、榜单指标需以原文为准。作为语音/多模态 LLM 的官方框架,模型与生态分量很足。
来源:综合 README.md 的定位、语音能力矩阵、生态与拆分现状