oMLX 是一个针对 Apple Silicon 的 LLM 推理服务器,提供连续批处理和 SSD 缓存,可通过 macOS 菜单栏进行管理。
来源:据 README 描述 查看 GitHub 仓库 →oMLX 受关注的原因包括:针对 Apple Silicon 的优化,提供连续批处理和 SSD 缓存,支持多种模型和功能,如 VLM、OCR 和嵌入模型,以及易于使用的菜单栏应用程序。
来源:综合 README 描述和项目特征通过 mlx-lm 的 BatchGenerator 处理并发请求,支持最大并发请求数配置。
来源:据 README 描述基于 RAM 和 SSD 的分层缓存,频繁访问的数据块保留在内存中,减少计算时间。
来源:据 README 描述支持 LLM、VLM、嵌入模型和重排器在同一服务器上运行,通过 LRU 缓存、手动加载/卸载、模型固定和 TTL 策略进行管理。
来源:据 README 描述oMLX 采用模块化设计,包括 CLI、Web UI 和服务器组件。数据通过 CLI 和 Web UI 进行管理,并通过服务器组件进行推理和缓存。
来源:代码目录结构 + 依赖文件infra: macOS 应用程序 | key_deps: mlx, mlx-lm, transformers, huggingface-hub, numpy, psutil | language: Python | framework: FastAPI
来源:依赖文件 + 代码目录结构1. 开发者使用 oMLX 在 macOS 上进行 LLM 推理和模型管理。 2. 研究人员使用 oMLX 进行机器学习和自然语言处理实验。 3. 企业使用 oMLX 构建基于 LLM 的应用程序和服务。 4. 教育机构使用 oMLX 进行人工智能教学和研究。
来源:READMEv0.3.5.dev1 (2026-04-07): Dev release with Gemma 4 native tool calling, UI improvements, and several bug fixes.
来源:GitHub ReleasesoMLX 是一个功能强大的 LLM 推理服务器,适合需要高性能和易用性的开发者、研究人员和企业。它特别适合在 macOS 上进行 LLM 推理和模型管理。
来源:综合分析