fikrikarim/parlor

⭐ 1,250 Stars 🍴 125 Forks HTML Apache-2.0

Parlor 是一个基于设备的实时多模态 AI 项目,允许用户与本地运行的 AI 进行自然语音和视觉对话。

来源:据 README 描述 查看 GitHub 仓库 →

为什么值得关注

Parlor 受关注的原因包括其创新的本地化 AI 交互体验、对边缘计算的支持以及对新兴多模态 AI 技术的应用。它填补了在移动设备上实现实时多模态 AI 交互的空白,并采用了 Gemma 4 E2B 和 Kokoro 等先进技术。

来源:综合 README 描述和项目特征

核心功能

本地化 AI 交互

Parlor 允许用户在本地设备上与 AI 进行语音和视觉对话,无需依赖云端服务器,提高了隐私性和响应速度。

来源:据 README 描述
多模态理解

项目使用 Gemma 4 E2B 进行语音和视觉理解,支持自然语言处理和图像识别。

来源:据 README 描述
文本到语音

Parlor 使用 Kokoro 进行文本到语音转换,能够将 AI 的响应转换为自然语音输出。

来源:据 README 描述

技术架构

Parlor 采用前后端分离的架构,前端使用 HTML 和 WebSocket 与用户交互,后端使用 FastAPI 作为 WebSocket 服务器,并通过 Gemma 4 E2B 和 Kokoro 进行语音和文本处理。数据流从用户输入(语音和图像)开始,经过模型处理,最终生成语音响应。

来源:代码目录结构 + 依赖文件

技术栈

infra: 本地运行,需要 macOS with Apple Silicon 或 Linux with supported GPU  |  key_deps: Gemma 4 E2B, Kokoro, LiteRT-LM, Silero VAD  |  language: Python  |  framework: FastAPI

来源:依赖文件 + 代码目录结构

快速上手

git clone https://github.com/fikrikarim/parlor.git cd parlor uv sync cd src uv run server.py
来源:README Installation/Quick Start

使用场景

Parlor 适用于需要本地 AI 交互的应用场景,如语言学习、智能家居控制、教育辅助工具等。它可以用于帮助用户学习新语言、解释物体或提供个性化建议。

来源:README

优势与局限

优势

  • 优势1:提供本地化 AI 交互,提高隐私性和响应速度
  • 优势2:支持多模态输入和输出,增强用户体验
  • 优势3:开源且使用先进的 AI 模型

局限

  • 局限1:仅支持 macOS with Apple Silicon 或 Linux with supported GPU
  • 局限2:依赖外部模型和库,可能需要额外的配置
  • 局限3:处于早期实验阶段,可能存在不稳定性和性能问题
来源:综合 README、代码结构和依赖分析

最新版本

信息不足,待补充

来源:GitHub Releases

总结评价

Parlor 是一个值得关注的开源项目,对于对本地 AI 交互和新兴多模态 AI 技术感兴趣的开发者和技术决策者来说,它提供了一个有价值的实验平台。它特别适合那些寻求在移动设备上实现实时 AI 交互的团队或个人。

来源:综合分析
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间:2026-04-08 00:31。质量评分:85/100。 所有结论均标注了数据来源。如发现不准确之处,欢迎反馈。

数据来源: README、GitHub API、依赖文件