parlor 深度解析：架构、场景与部署指南（1K★）

为什么值得关注

「实时语音 + 视觉、且完全本地」一直是体验诱人但门槛极高的方向——半年前作者称跑实时语音模型还需 RTX 5090。随着 Gemma 4 E2B 这样的小而强多模态模型出现，在 M3 Pro 上就能实时跑（还带视觉），端到端约 2.5–3 秒、解码约 83 tokens/s。Parlor 把这件事做成一个可上手的开源 demo：浏览器免提对话、可打断、句级 TTS 流式播放，并清楚讲了「为本地化、零服务器成本的语言学习场景」的动机。这种「OpenAI 几年前演示过、如今能本地跑」的实感使它受到关注（约 1,800 星，属新兴研究预览）。

来源：README Why、Performance、GitHub meta（stars 1781、created_at 2026-04-05）

核心功能

完全本地的实时语音+视觉对话

用 Gemma 4 E2B（LiteRT-LM，GPU）同时理解语音与摄像头画面、Kokoro 生成语音回应，全程在本机运行、不连云。Apple M3 Pro 上端到端约 2.5–3 秒。

来源：README 顶部简介、How it works、Performance 表

免提语音活动检测（VAD）

浏览器端用 Silero VAD 做语音活动检测，免按键、免 push-to-talk，自然开口即可对话。

来源：README How it works（Voice Activity Detection）

打断（barge-in）

可在 AI 说话中途直接开口打断它，交互更接近真人对话节奏。

来源：README How it works（Barge-in）

句级 TTS 流式播放

音频在完整回答生成完之前就开始播放（按句流式），降低等待感、提升实时性。

来源：README How it works（Sentence-level TTS streaming）

跨平台 TTS 后端

TTS 平台自适应：Mac 上用 MLX、Linux 上用 ONNX 跑 Kokoro，兼顾 Apple Silicon 与 Linux GPU 环境。

来源：README How it works、Project structure（tts.py）、Acknowledgments

技术架构

Parlor 是一个小而清晰的本地服务 + 浏览器前端项目。前端（src/index.html）在浏览器采集麦克风音频（PCM）与摄像头帧（JPEG），用 Silero VAD 做语音活动检测，经 WebSocket 上传；后端是 Python 3.12+ 的 FastAPI 服务（src/server.py），用 LiteRT-LM 在 GPU 上跑 Gemma 4 E2B 做语音+视觉理解，再用 Kokoro（src/tts.py，Mac 走 MLX、Linux 走 ONNX）合成语音，按句流式经 WebSocket 把音频块回传给浏览器播放并显示转写。仓库结构精简：src/ 下含 server.py、tts.py、index.html、pyproject.toml 与 benchmarks/（端到端与 TTS 基准），用 uv 管理依赖，模型首次运行自动从 HuggingFace 下载（Gemma 4 E2B 约 2.6GB + TTS 模型）。

来源：README How it works/Project structure/Quick start、仓库目录（src/、artifacts/）

项目知识图谱

中心为项目本体，内环 = 核心功能模块，外环 = 关键技术依赖；按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python（后端）+ HTML/JS（前端）框架FastAPI + WebSocket（服务端），浏览器前端

关键依赖

Gemma 4 E2B（多模态理解）via LiteRT-LMKokoro TTS（MLX on Mac / ONNX on Linux）Silero VAD（浏览器语音活动检测）uv（依赖管理）

基础设施 / 部署

本地运行，无服务端云依赖；需 macOS Apple Silicon 或带 GPU 的 Linux、Python 3.12+、约 3GB RAM；模型首次自动下载

来源：README How it works/Requirements/Project structure/Acknowledgments

快速上手

克隆仓库：`git clone https://github.com/fikrikarim/parlor.git && cd parlor`。没装 uv 先装：`curl -LsSf https://astral.sh/uv/install.sh | sh`。然后 `cd src && uv sync && uv run server.py`。浏览器打开 http://localhost:8000，授予摄像头与麦克风权限即可开始语音+视觉对话。首次运行会自动下载模型（Gemma 4 E2B 约 2.6GB 加 TTS 模型）。可用环境变量 MODEL_PATH 指定本地 .litertlm 模型、PORT 改端口。需要 macOS Apple Silicon 或带 GPU 的 Linux、Python 3.12+、约 3GB 空闲内存。

来源：README Quick start/Configuration/Requirements

使用场景

最贴合的场景是语言学习——作者就是为「免费、本地、零服务器成本的英语口语练习」而做：学习者对着摄像头指物体并用目标语言聊天，模型多语言、必要时可回退母语。更广义地，它是一个「完全本地的实时语音+视觉助手」原型，适合需要隐私、离线或想避免云成本的对话式应用；对开发者，它也是研究「小多模态模型 + 本地 TTS/VAD 做实时语音交互」如何端到端拼起来的简洁参考实现。

来源：README Why、顶部简介、How it works

优势与局限

优势

完全本地、实时、多模态：语音+视觉理解加语音回应全在端上跑，隐私好、无云成本，M3 Pro 上端到端约 2.5–3 秒。
交互体验到位：免提 VAD、可打断、句级 TTS 流式播放，接近自然对话节奏。
实现简洁、易上手：FastAPI + 浏览器前端、uv 一键装、模型自动下载，结构清晰、含基准脚本。
Apache-2.0、动机务实（普惠的本地语言学习），跨 Mac/Linux。

局限

明确是「研究预览」，作者提示有粗糙之处与 bug，非生产级。
硬件门槛：需 Apple Silicon 或带 GPU 的 Linux、约 3GB 内存，首包下载约 2.6GB+，普通/老旧设备体验受限。
能力受小模型限制：Gemma 4 E2B 适合对话与语言学习，作者也指出它做不了 agentic 编码等重任务。
项目较新、规模小（约 1,800 星），功能与稳定性仍在早期。

来源：README（Research preview 提示）、Requirements/Why/Performance

总结评价

Parlor 是一个让人眼前一亮的本地多模态语音助手原型：把 Gemma 4 E2B 的语音+视觉理解、Kokoro 本地 TTS、浏览器 VAD 与打断、句级流式播放拼成一套完全在端上跑、约 3 秒端到端的实时对话，隐私好、无云成本，且实现足够简洁可读。对做本地语言学习、隐私优先语音应用，或想研究「小多模态模型如何端到端做实时交互」的人，它很值得跑一跑。要清楚它是研究预览——有 bug、需要 Apple Silicon/GPU 与数 GB 资源、能力受小模型边界限制。作为「OpenAI 几年前演示、如今能本地复刻」的开源实证，它的方向感与体验都很有启发。

来源：综合 README、How it works、Performance 与 GitHub meta 的事实判断

常见问题

parlor 是什么？

Parlor 是一个完全在本地设备上运行的实时多模态 AI 助手：你可以用语音和摄像头与它自然对话——你说话、给它看画面，它出声回应，全程不连云。它用 Google 的 Gemma 4 E2B（经 LiteRT-LM）理解语音与视觉，用 Kokoro 做文字转语音（Mac 上走 MLX、Linux 上走 ONNX），前端在浏览器采集麦克风与摄像头，经 WebSocket 与本地 FastAPI 服务通信。

parlor 有哪些核心功能？

parlor 的核心功能包括：完全本地的实时语音+视觉对话、免提语音活动检测（VAD）、打断（barge-in）、句级 TTS 流式播放、跨平台 TTS 后端。

parlor 为什么最近很受关注？

parlor 适合哪些使用场景？

透明度声明
本页内容由 AI（大语言模型）基于以下公开材料自动生成：GitHub README、代码目录结构、依赖文件、Release 信息。分析时间: 2026-05-23 18:46. 质量评分: 100/100.

数据来源：README、GitHub API、依赖文件