Parlor 是一个完全在本地设备上运行的实时多模态 AI 助手:你可以用语音和摄像头与它自然对话——你说话、给它看画面,它出声回应,全程不连云。它用 Google 的 Gemma 4 E2B(经 LiteRT-LM)理解语音与视觉,用 Kokoro 做文字转语音(Mac 上走 MLX、Linux 上走 ONNX),前端在浏览器采集麦克风与摄像头,经 WebSocket 与本地 FastAPI 服务通信。作者把它定位为「研究预览」,初衷是给免费的英语口语学习 AI 去掉服务器成本、让一切跑在端上。Apache-2.0 开源,需要 Apple Silicon 的 Mac 或带 GPU 的 Linux,约 3GB 内存。
来源:README 顶部简介、Why、How it works、Requirements、GitHub meta(fikrikarim/parlor,Apache-2.0,HTML/Python) 查看 GitHub 仓库 →「实时语音 + 视觉、且完全本地」一直是体验诱人但门槛极高的方向——半年前作者称跑实时语音模型还需 RTX 5090。随着 Gemma 4 E2B 这样的小而强多模态模型出现,在 M3 Pro 上就能实时跑(还带视觉),端到端约 2.5–3 秒、解码约 83 tokens/s。Parlor 把这件事做成一个可上手的开源 demo:浏览器免提对话、可打断、句级 TTS 流式播放,并清楚讲了「为本地化、零服务器成本的语言学习场景」的动机。这种「OpenAI 几年前演示过、如今能本地跑」的实感使它受到关注(约 1,800 星,属新兴研究预览)。
来源:README Why、Performance、GitHub meta(stars 1781、created_at 2026-04-05)用 Gemma 4 E2B(LiteRT-LM,GPU)同时理解语音与摄像头画面、Kokoro 生成语音回应,全程在本机运行、不连云。Apple M3 Pro 上端到端约 2.5–3 秒。
来源:README 顶部简介、How it works、Performance 表浏览器端用 Silero VAD 做语音活动检测,免按键、免 push-to-talk,自然开口即可对话。
来源:README How it works(Voice Activity Detection)可在 AI 说话中途直接开口打断它,交互更接近真人对话节奏。
来源:README How it works(Barge-in)音频在完整回答生成完之前就开始播放(按句流式),降低等待感、提升实时性。
来源:README How it works(Sentence-level TTS streaming)TTS 平台自适应:Mac 上用 MLX、Linux 上用 ONNX 跑 Kokoro,兼顾 Apple Silicon 与 Linux GPU 环境。
来源:README How it works、Project structure(tts.py)、AcknowledgmentsParlor 是一个小而清晰的本地服务 + 浏览器前端项目。前端(src/index.html)在浏览器采集麦克风音频(PCM)与摄像头帧(JPEG),用 Silero VAD 做语音活动检测,经 WebSocket 上传;后端是 Python 3.12+ 的 FastAPI 服务(src/server.py),用 LiteRT-LM 在 GPU 上跑 Gemma 4 E2B 做语音+视觉理解,再用 Kokoro(src/tts.py,Mac 走 MLX、Linux 走 ONNX)合成语音,按句流式经 WebSocket 把音频块回传给浏览器播放并显示转写。仓库结构精简:src/ 下含 server.py、tts.py、index.html、pyproject.toml 与 benchmarks/(端到端与 TTS 基准),用 uv 管理依赖,模型首次运行自动从 HuggingFace 下载(Gemma 4 E2B 约 2.6GB + TTS 模型)。
来源:README How it works/Project structure/Quick start、仓库目录(src/、artifacts/)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
Gemma 4 E2B(多模态理解)via LiteRT-LMKokoro TTS(MLX on Mac / ONNX on Linux)Silero VAD(浏览器语音活动检测)uv(依赖管理)最贴合的场景是语言学习——作者就是为「免费、本地、零服务器成本的英语口语练习」而做:学习者对着摄像头指物体并用目标语言聊天,模型多语言、必要时可回退母语。更广义地,它是一个「完全本地的实时语音+视觉助手」原型,适合需要隐私、离线或想避免云成本的对话式应用;对开发者,它也是研究「小多模态模型 + 本地 TTS/VAD 做实时语音交互」如何端到端拼起来的简洁参考实现。
来源:README Why、顶部简介、How it works项目为早期研究预览,以仓库形式迭代,无打 tag 的正式 Release。当前已实现完全本地的实时语音+视觉对话、VAD 免提、打断与句级 TTS 流式,并提供端到端与 TTS 基准脚本。最近一次更新在 2026-05-16。
来源:README(Research preview)、Project structure(benchmarks)、GitHub meta pushed_at 2026-05-16、created_at 2026-04-05Parlor 是一个让人眼前一亮的本地多模态语音助手原型:把 Gemma 4 E2B 的语音+视觉理解、Kokoro 本地 TTS、浏览器 VAD 与打断、句级流式播放拼成一套完全在端上跑、约 3 秒端到端的实时对话,隐私好、无云成本,且实现足够简洁可读。对做本地语言学习、隐私优先语音应用,或想研究「小多模态模型如何端到端做实时交互」的人,它很值得跑一跑。要清楚它是研究预览——有 bug、需要 Apple Silicon/GPU 与数 GB 资源、能力受小模型边界限制。作为「OpenAI 几年前演示、如今能本地复刻」的开源实证,它的方向感与体验都很有启发。
来源:综合 README、How it works、Performance 与 GitHub meta 的事实判断