parlor 是什么?

Parlor 是一个完全在本地设备上运行的实时多模态 AI 助手:你可以用语音和摄像头与它自然对话——你说话、给它看画面,它出声回应,全程不连云。它用 Google 的 Gemma 4 E2B(经 LiteRT-LM)理解语音与视觉,用 Kokoro 做文字转语音(Mac 上走 MLX、Linux 上走 ONNX),前端在浏览器采集麦克风与摄像头,经 WebSocket 与本地 FastAPI 服务通信。作者把它定位为「研究预览」,初衷是给免费的英语口语学习 AI 去掉服务器成本、让一切跑在端上。Apache-2.0 开源,需要 Apple Silicon 的 Mac 或带 GPU 的 Linux,约 3GB 内存。

⭐ 1,250 Stars 🍴 125 Forks HTML Apache-2.0 作者: fikrikarim
来源:README 顶部简介、Why、How it works、Requirements、GitHub meta(fikrikarim/parlor,Apache-2.0,HTML/Python) 查看 GitHub 仓库 →

为什么值得关注

「实时语音 + 视觉、且完全本地」一直是体验诱人但门槛极高的方向——半年前作者称跑实时语音模型还需 RTX 5090。随着 Gemma 4 E2B 这样的小而强多模态模型出现,在 M3 Pro 上就能实时跑(还带视觉),端到端约 2.5–3 秒、解码约 83 tokens/s。Parlor 把这件事做成一个可上手的开源 demo:浏览器免提对话、可打断、句级 TTS 流式播放,并清楚讲了「为本地化、零服务器成本的语言学习场景」的动机。这种「OpenAI 几年前演示过、如今能本地跑」的实感使它受到关注(约 1,800 星,属新兴研究预览)。

来源:README Why、Performance、GitHub meta(stars 1781、created_at 2026-04-05)

核心功能

完全本地的实时语音+视觉对话

用 Gemma 4 E2B(LiteRT-LM,GPU)同时理解语音与摄像头画面、Kokoro 生成语音回应,全程在本机运行、不连云。Apple M3 Pro 上端到端约 2.5–3 秒。

来源:README 顶部简介、How it works、Performance 表
免提语音活动检测(VAD)

浏览器端用 Silero VAD 做语音活动检测,免按键、免 push-to-talk,自然开口即可对话。

来源:README How it works(Voice Activity Detection)
打断(barge-in)

可在 AI 说话中途直接开口打断它,交互更接近真人对话节奏。

来源:README How it works(Barge-in)
句级 TTS 流式播放

音频在完整回答生成完之前就开始播放(按句流式),降低等待感、提升实时性。

来源:README How it works(Sentence-level TTS streaming)
跨平台 TTS 后端

TTS 平台自适应:Mac 上用 MLX、Linux 上用 ONNX 跑 Kokoro,兼顾 Apple Silicon 与 Linux GPU 环境。

来源:README How it works、Project structure(tts.py)、Acknowledgments

技术架构

Parlor 是一个小而清晰的本地服务 + 浏览器前端项目。前端(src/index.html)在浏览器采集麦克风音频(PCM)与摄像头帧(JPEG),用 Silero VAD 做语音活动检测,经 WebSocket 上传;后端是 Python 3.12+ 的 FastAPI 服务(src/server.py),用 LiteRT-LM 在 GPU 上跑 Gemma 4 E2B 做语音+视觉理解,再用 Kokoro(src/tts.py,Mac 走 MLX、Linux 走 ONNX)合成语音,按句流式经 WebSocket 把音频块回传给浏览器播放并显示转写。仓库结构精简:src/ 下含 server.py、tts.py、index.html、pyproject.toml 与 benchmarks/(端到端与 TTS 基准),用 uv 管理依赖,模型首次运行自动从 HuggingFace 下载(Gemma 4 E2B 约 2.6GB + TTS 模型)。

来源:README How it works/Project structure/Quick start、仓库目录(src/、artifacts/)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) Gemma 4 E2B(多模态理解)via LiteRT-LMGemma 4 E2B(… Kokoro TTS(MLX on Mac / ONNX on Linux)Kokoro TTS(ML… Silero VAD(浏览器语音活动检测)Silero VAD(浏… uv(依赖管理) 完全本地的实时语音+视觉对话完全本地的实时语音+视… 免提语音活动检测(VAD) 打断(barge-in) 句级 TTS 流式播放 跨平台 TTS 后端 parlor 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python(后端)+ HTML/JS(前端)框架FastAPI + WebSocket(服务端),浏览器前端
Gemma 4 E2B(多模态理解)via LiteRT-LMKokoro TTS(MLX on Mac / ONNX on Linux)Silero VAD(浏览器语音活动检测)uv(依赖管理)
本地运行,无服务端云依赖;需 macOS Apple Silicon 或带 GPU 的 Linux、Python 3.12+、约 3GB RAM;模型首次自动下载
来源:README How it works/Requirements/Project structure/Acknowledgments

快速上手

克隆仓库:`git clone https://github.com/fikrikarim/parlor.git && cd parlor`。没装 uv 先装:`curl -LsSf https://astral.sh/uv/install.sh | sh`。然后 `cd src && uv sync && uv run server.py`。浏览器打开 http://localhost:8000,授予摄像头与麦克风权限即可开始语音+视觉对话。首次运行会自动下载模型(Gemma 4 E2B 约 2.6GB 加 TTS 模型)。可用环境变量 MODEL_PATH 指定本地 .litertlm 模型、PORT 改端口。需要 macOS Apple Silicon 或带 GPU 的 Linux、Python 3.12+、约 3GB 空闲内存。
来源:README Quick start/Configuration/Requirements

使用场景

最贴合的场景是语言学习——作者就是为「免费、本地、零服务器成本的英语口语练习」而做:学习者对着摄像头指物体并用目标语言聊天,模型多语言、必要时可回退母语。更广义地,它是一个「完全本地的实时语音+视觉助手」原型,适合需要隐私、离线或想避免云成本的对话式应用;对开发者,它也是研究「小多模态模型 + 本地 TTS/VAD 做实时语音交互」如何端到端拼起来的简洁参考实现。

来源:README Why、顶部简介、How it works

优势与局限

优势

  • 完全本地、实时、多模态:语音+视觉理解加语音回应全在端上跑,隐私好、无云成本,M3 Pro 上端到端约 2.5–3 秒。
  • 交互体验到位:免提 VAD、可打断、句级 TTS 流式播放,接近自然对话节奏。
  • 实现简洁、易上手:FastAPI + 浏览器前端、uv 一键装、模型自动下载,结构清晰、含基准脚本。
  • Apache-2.0、动机务实(普惠的本地语言学习),跨 Mac/Linux。

局限

  • 明确是「研究预览」,作者提示有粗糙之处与 bug,非生产级。
  • 硬件门槛:需 Apple Silicon 或带 GPU 的 Linux、约 3GB 内存,首包下载约 2.6GB+,普通/老旧设备体验受限。
  • 能力受小模型限制:Gemma 4 E2B 适合对话与语言学习,作者也指出它做不了 agentic 编码等重任务。
  • 项目较新、规模小(约 1,800 星),功能与稳定性仍在早期。
来源:README(Research preview 提示)、Requirements/Why/Performance

最新版本

项目为早期研究预览,以仓库形式迭代,无打 tag 的正式 Release。当前已实现完全本地的实时语音+视觉对话、VAD 免提、打断与句级 TTS 流式,并提供端到端与 TTS 基准脚本。最近一次更新在 2026-05-16。

来源:README(Research preview)、Project structure(benchmarks)、GitHub meta pushed_at 2026-05-16、created_at 2026-04-05

总结评价

Parlor 是一个让人眼前一亮的本地多模态语音助手原型:把 Gemma 4 E2B 的语音+视觉理解、Kokoro 本地 TTS、浏览器 VAD 与打断、句级流式播放拼成一套完全在端上跑、约 3 秒端到端的实时对话,隐私好、无云成本,且实现足够简洁可读。对做本地语言学习、隐私优先语音应用,或想研究「小多模态模型如何端到端做实时交互」的人,它很值得跑一跑。要清楚它是研究预览——有 bug、需要 Apple Silicon/GPU 与数 GB 资源、能力受小模型边界限制。作为「OpenAI 几年前演示、如今能本地复刻」的开源实证,它的方向感与体验都很有启发。

来源:综合 README、How it works、Performance 与 GitHub meta 的事实判断
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-23 18:46. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件