omlx 是什么?

oMLX 是一个为 Apple Silicon 优化、可从 macOS 菜单栏管理的本地 LLM 推理服务器。它的两大核心是连续批处理(continuous batching)与分层 KV 缓存——把 KV cache 持久化在「热」内存层与「冷」SSD 层之间,即使对话中途上下文变化,过去的上下文也能跨请求缓存复用,从而让本地 LLM 在 Claude Code 这类真实编码场景下变得实用。它用 Python + MLX 实现,提供 OpenAI 兼容 API(localhost:8000)与内置聊天 UI,可作 macOS 应用、Homebrew 服务或源码安装。Apache-2.0 开源、约 1.5 万星。

⭐ 14,762 Stars 🍴 1,242 Forks Python Apache-2.0 作者: jundot
来源:README 顶部简介/作者说明/Install/Quickstart、GitHub meta(jundot/omlx,Python,Apache-2.0,homepage omlx.ai) 查看 GitHub 仓库 →

为什么值得关注

在 Mac 上跑本地 LLM 做编码越来越流行,但多数本地服务器要么便利要么可控、二选一,且上下文一变 KV cache 就作废、重算很慢。oMLX 切的正是这点:用连续批处理提升吞吐、用「内存+SSD」分层 KV 缓存让历史上下文跨请求复用(上下文中途变化也保留),并把模型常驻/按需换出、上下文上限等全放进菜单栏管理,OpenAI 兼容、可接 Claude Code/OpenClaw/Codex 等。这种「便利与可控兼得、为真实编码场景优化」的定位很对 Mac 用户胃口,加上多语言文档与 macOS 应用,使它快速涨到约 1.5 万星。

来源:README 作者说明/Features、GitHub meta(stars 14953、created_at 2026-02-13、pushed_at 2026-05-22)

核心功能

连续批处理 + 分层 KV 缓存

用连续批处理提升并发吞吐;KV cache 分热(内存)冷(SSD)两层持久化,即使对话中途上下文变化,过去上下文仍跨请求缓存复用,避免重复预填充,使本地 LLM 在长上下文/多请求的编码场景下更实用。

来源:README 顶部简介/作者说明(hot in-memory + cold SSD tier)
菜单栏管理与零配置服务

从 macOS 菜单栏管理:常驻日常模型、按需自动换出更重的模型、设上下文上限等;macOS 应用带欢迎引导与一键自动更新;Homebrew 可作后台服务(崩溃自动重启),零配置默认 ~/.omlx/models 与端口 8000。

来源:README 顶部简介/Quickstart/Homebrew Service 段
OpenAI 兼容 API + 内置 UI + 多模型类型

任意 OpenAI 兼容客户端可连 http://localhost:8000/v1,内置聊天 UI 在 /admin/chat;服务器从模型目录子文件夹自动发现 LLM、VLM(视觉)、embedding 与 reranker 模型。

来源:README CLI/Quickstart 段
多种安装与 MCP/客户端集成

可下载 .dmg macOS 应用、用 Homebrew(tap jundot/omlx)或源码 pip 安装;可选 MCP(Model Context Protocol)支持;并提供 OpenClaw、OpenCode、Codex、Hermes Agent、Copilot 等集成指引。

来源:README Install/Quickstart/Integrations 段

技术架构

oMLX 是 Python 实现、基于 MLX(Apple 的机器学习框架)的本地推理服务器,专为 Apple Silicon 优化。核心在 omlx/,对外是一个 OpenAI 兼容的 HTTP 服务(默认 :8000,含 /v1 与 /admin/chat 聊天 UI)。推理侧实现连续批处理调度与分层 KV 缓存(内存热层 + SSD 冷层,持久化并跨请求/跨上下文变化复用)。模型从模型目录子文件夹自动发现,支持 LLM/VLM/embedding/reranker。配置经环境变量或 ~/.omlx/settings.json 持久化,日志写到服务日志与结构化 server.log。仓库还含 Formula/(Homebrew tap)、packaging/(macOS 应用打包,带菜单栏管理与自动更新)、docs/、scripts/、tests/。要求 macOS 15.0+、Python 3.10+、Apple Silicon。可选 MCP 支持以接入代理。

来源:README Install/Quickstart/CLI/Homebrew Service、仓库目录树(omlx/Formula/packaging/docs/tests)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) MLX(推理) OpenAI 兼容 API(:8000/v1)OpenAI 兼容 AP… 可选 MCP(Model Context Protocol)可选 MCP(Model… Homebrew(服务化)Homebrew(服务… 连续批处理 + 分层 KV 缓存连续批处理 + 分层 KV… 菜单栏管理与零配置服务 OpenAI 兼容 API + 内置 UI + 多模型类型OpenAI 兼容 API +… 多种安装与 MCP/客户端集成多种安装与 MCP/客户端… omlx 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python(3.10+)框架MLX(Apple Silicon 推理)+ OpenAI 兼容服务器
MLX(推理)OpenAI 兼容 API(可选 MCP(Model Context Protocol)Homebrew(服务化)
macOS 15.0+、Apple Silicon(M1–M4);.dmg 应用 / Homebrew 服务 / 源码;菜单栏管理 + 内存/SSD 分层 KV 缓存
来源:README Install/Quickstart、徽章(Apple Silicon/Python 3.10+)

快速上手

macOS 应用:从 Releases 下载 .dmg 拖进 Applications,按欢迎引导设模型目录、启动服务、下载首个模型即可(应用内一键自动更新;注意应用不装 omlx CLI)。Homebrew:`brew tap jundot/omlx https://github.com/jundot/omlx && brew install omlx`,可 `brew services start omlx` 作后台服务(崩溃自动重启),可选 `pip install mcp` 加 MCP。源码:克隆后 `pip install -e .`(或 .[mcp])。CLI 启动:`omlx serve --model-dir ~/models`,从子目录自动发现 LLM/VLM/embedding/reranker,OpenAI 兼容客户端连 http://localhost:8000/v1,内置聊天 UI 在 /admin/chat。要求 macOS 15+、Python 3.10+、Apple Silicon。接 Claude Code/OpenClaw/Codex 等见 Integrations。
来源:README Install/Quickstart/Homebrew Service/CLI 段

使用场景

适合在 Apple Silicon Mac 上跑本地 LLM 的开发者:把本地模型作为 Claude Code/OpenClaw/Codex/Copilot 等的 OpenAI 兼容后端做编码(靠分层 KV 缓存让长上下文/多请求不必反复重算、更可用)、常驻日常模型并按需换出大模型、统一从菜单栏管理上下文与服务;也可跑 VLM、embedding 与 reranker 服务本地 RAG。注重隐私、想离线且要「便利又可控」的本地推理用户尤其契合。

来源:README 作者说明/Features/Quickstart/Integrations

优势与局限

优势

  • 为真实编码场景优化:连续批处理 + 内存/SSD 分层 KV 缓存,让本地 LLM 在长上下文与多请求下更实用,配 Claude Code 等很合适。
  • 便利且可控:菜单栏管理常驻/换出/上下文上限,macOS 应用一键更新、Homebrew 可作自恢复后台服务。
  • 兼容性好:OpenAI 兼容 API + 内置聊天 UI,自动发现 LLM/VLM/embedding/reranker,MCP 与多代理集成。
  • Apache-2.0、多语言文档、约 1.5 万星,安装方式多样。

局限

  • 平台受限:仅 macOS 15+ 与 Apple Silicon,Intel Mac/其它系统不可用。
  • 本地推理的速度与可跑模型规模受机器(内存/SSD)限制,SSD 冷层复用也带来磁盘 IO 与空间开销。
  • macOS 应用不含 CLI,终端使用需另装 Homebrew/源码;MCP 为可选需额外安装。
  • 本地模型质量与上限仍取决于所选模型,重型任务不及云端大模型。
来源:README Install/Quickstart 的环境要求、作者说明、Apple Silicon 限制

最新版本

通过 GitHub Releases 提供 macOS .dmg(应用内自动更新),并经 Homebrew tap(jundot/omlx)与源码分发。功能已覆盖连续批处理、内存/SSD 分层 KV 缓存、OpenAI 兼容 API、内置聊天 UI、LLM/VLM/embedding/reranker 自动发现、可选 MCP 与多代理集成。多语言文档(中/日/韩/法)。仓库最近一次更新在 2026-05-22。

来源:README Install/Features、GitHub meta pushed_at 2026-05-22、created_at 2026-02-13

总结评价

oMLX 把「在 Mac 上跑本地 LLM」做得既便利又可控:连续批处理加内存/SSD 分层 KV 缓存,让历史上下文跨请求复用、长上下文不必反复重算,正面解决了本地推理在编码场景下「慢、卡」的痛点,再用菜单栏把模型常驻/换出/上下文管理收拢,OpenAI 兼容、可直接当 Claude Code 等的本地后端。对有 Apple Silicon、想隐私/离线又要好用的开发者,它很值得一试。约束也清楚——仅限较新 macOS 与 Apple Silicon,速度与可跑规模受机器限制,应用不带 CLI、MCP 需另装。作为「为 Mac 优化、为真实编码而生」的本地推理服务器,它的工程取向相当对路。

来源:综合 README、Features、安装与 GitHub meta 的事实判断
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-23 19:43. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件