oMLX 是一个为 Apple Silicon 优化、可从 macOS 菜单栏管理的本地 LLM 推理服务器。它的两大核心是连续批处理(continuous batching)与分层 KV 缓存——把 KV cache 持久化在「热」内存层与「冷」SSD 层之间,即使对话中途上下文变化,过去的上下文也能跨请求缓存复用,从而让本地 LLM 在 Claude Code 这类真实编码场景下变得实用。它用 Python + MLX 实现,提供 OpenAI 兼容 API(localhost:8000)与内置聊天 UI,可作 macOS 应用、Homebrew 服务或源码安装。Apache-2.0 开源、约 1.5 万星。
来源:README 顶部简介/作者说明/Install/Quickstart、GitHub meta(jundot/omlx,Python,Apache-2.0,homepage omlx.ai) 查看 GitHub 仓库 →在 Mac 上跑本地 LLM 做编码越来越流行,但多数本地服务器要么便利要么可控、二选一,且上下文一变 KV cache 就作废、重算很慢。oMLX 切的正是这点:用连续批处理提升吞吐、用「内存+SSD」分层 KV 缓存让历史上下文跨请求复用(上下文中途变化也保留),并把模型常驻/按需换出、上下文上限等全放进菜单栏管理,OpenAI 兼容、可接 Claude Code/OpenClaw/Codex 等。这种「便利与可控兼得、为真实编码场景优化」的定位很对 Mac 用户胃口,加上多语言文档与 macOS 应用,使它快速涨到约 1.5 万星。
来源:README 作者说明/Features、GitHub meta(stars 14953、created_at 2026-02-13、pushed_at 2026-05-22)用连续批处理提升并发吞吐;KV cache 分热(内存)冷(SSD)两层持久化,即使对话中途上下文变化,过去上下文仍跨请求缓存复用,避免重复预填充,使本地 LLM 在长上下文/多请求的编码场景下更实用。
来源:README 顶部简介/作者说明(hot in-memory + cold SSD tier)从 macOS 菜单栏管理:常驻日常模型、按需自动换出更重的模型、设上下文上限等;macOS 应用带欢迎引导与一键自动更新;Homebrew 可作后台服务(崩溃自动重启),零配置默认 ~/.omlx/models 与端口 8000。
来源:README 顶部简介/Quickstart/Homebrew Service 段任意 OpenAI 兼容客户端可连 http://localhost:8000/v1,内置聊天 UI 在 /admin/chat;服务器从模型目录子文件夹自动发现 LLM、VLM(视觉)、embedding 与 reranker 模型。
来源:README CLI/Quickstart 段可下载 .dmg macOS 应用、用 Homebrew(tap jundot/omlx)或源码 pip 安装;可选 MCP(Model Context Protocol)支持;并提供 OpenClaw、OpenCode、Codex、Hermes Agent、Copilot 等集成指引。
来源:README Install/Quickstart/Integrations 段oMLX 是 Python 实现、基于 MLX(Apple 的机器学习框架)的本地推理服务器,专为 Apple Silicon 优化。核心在 omlx/,对外是一个 OpenAI 兼容的 HTTP 服务(默认 :8000,含 /v1 与 /admin/chat 聊天 UI)。推理侧实现连续批处理调度与分层 KV 缓存(内存热层 + SSD 冷层,持久化并跨请求/跨上下文变化复用)。模型从模型目录子文件夹自动发现,支持 LLM/VLM/embedding/reranker。配置经环境变量或 ~/.omlx/settings.json 持久化,日志写到服务日志与结构化 server.log。仓库还含 Formula/(Homebrew tap)、packaging/(macOS 应用打包,带菜单栏管理与自动更新)、docs/、scripts/、tests/。要求 macOS 15.0+、Python 3.10+、Apple Silicon。可选 MCP 支持以接入代理。
来源:README Install/Quickstart/CLI/Homebrew Service、仓库目录树(omlx/Formula/packaging/docs/tests)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
MLX(推理)OpenAI 兼容 API(可选 MCP(Model Context Protocol)Homebrew(服务化)适合在 Apple Silicon Mac 上跑本地 LLM 的开发者:把本地模型作为 Claude Code/OpenClaw/Codex/Copilot 等的 OpenAI 兼容后端做编码(靠分层 KV 缓存让长上下文/多请求不必反复重算、更可用)、常驻日常模型并按需换出大模型、统一从菜单栏管理上下文与服务;也可跑 VLM、embedding 与 reranker 服务本地 RAG。注重隐私、想离线且要「便利又可控」的本地推理用户尤其契合。
来源:README 作者说明/Features/Quickstart/Integrations通过 GitHub Releases 提供 macOS .dmg(应用内自动更新),并经 Homebrew tap(jundot/omlx)与源码分发。功能已覆盖连续批处理、内存/SSD 分层 KV 缓存、OpenAI 兼容 API、内置聊天 UI、LLM/VLM/embedding/reranker 自动发现、可选 MCP 与多代理集成。多语言文档(中/日/韩/法)。仓库最近一次更新在 2026-05-22。
来源:README Install/Features、GitHub meta pushed_at 2026-05-22、created_at 2026-02-13oMLX 把「在 Mac 上跑本地 LLM」做得既便利又可控:连续批处理加内存/SSD 分层 KV 缓存,让历史上下文跨请求复用、长上下文不必反复重算,正面解决了本地推理在编码场景下「慢、卡」的痛点,再用菜单栏把模型常驻/换出/上下文管理收拢,OpenAI 兼容、可直接当 Claude Code 等的本地后端。对有 Apple Silicon、想隐私/离线又要好用的开发者,它很值得一试。约束也清楚——仅限较新 macOS 与 Apple Silicon,速度与可跑规模受机器限制,应用不带 CLI、MCP 需另装。作为「为 Mac 优化、为真实编码而生」的本地推理服务器,它的工程取向相当对路。
来源:综合 README、Features、安装与 GitHub meta 的事实判断