jundot/omlx

⭐ 37 Stars 🍴 2 Forks Python Apache-2.0

oMLX 是一个针对 Apple Silicon 的 LLM 推理服务器,提供连续批处理和 SSD 缓存,可通过 macOS 菜单栏进行管理。

来源:据 README 描述 查看 GitHub 仓库 →

为什么值得关注

oMLX 受关注的原因包括:针对 Apple Silicon 的优化,提供连续批处理和 SSD 缓存,支持多种模型和功能,如 VLM、OCR 和嵌入模型,以及易于使用的菜单栏应用程序。

来源:综合 README 描述和项目特征

核心功能

连续批处理

通过 mlx-lm 的 BatchGenerator 处理并发请求,支持最大并发请求数配置。

来源:据 README 描述
分层 KV 缓存

基于 RAM 和 SSD 的分层缓存,频繁访问的数据块保留在内存中,减少计算时间。

来源:据 README 描述
多模型服务

支持 LLM、VLM、嵌入模型和重排器在同一服务器上运行,通过 LRU 缓存、手动加载/卸载、模型固定和 TTL 策略进行管理。

来源:据 README 描述

技术架构

oMLX 采用模块化设计,包括 CLI、Web UI 和服务器组件。数据通过 CLI 和 Web UI 进行管理,并通过服务器组件进行推理和缓存。

来源:代码目录结构 + 依赖文件

技术栈

infra: macOS 应用程序  |  key_deps: mlx, mlx-lm, transformers, huggingface-hub, numpy, psutil  |  language: Python  |  framework: FastAPI

来源:依赖文件 + 代码目录结构

快速上手

### macOS App Download the `.dmg` from [Releases](https://github.com/jundot/omlx/releases), drag to Applications, done. ### Homebrew ```bash brew tap jundot/omlx https://github.com/jundot/omlx brew install omlx ```
来源:README Installation/Quick Start

使用场景

1. 开发者使用 oMLX 在 macOS 上进行 LLM 推理和模型管理。 2. 研究人员使用 oMLX 进行机器学习和自然语言处理实验。 3. 企业使用 oMLX 构建基于 LLM 的应用程序和服务。 4. 教育机构使用 oMLX 进行人工智能教学和研究。

来源:README

优势与局限

优势

  • 优势1:针对 Apple Silicon 优化,提供高性能的 LLM 推理服务。
  • 优势2:提供连续批处理和分层缓存,提高推理效率。
  • 优势3:易于使用的菜单栏应用程序,方便管理模型和服务。

局限

  • 局限1:目前仅支持 macOS 平台。
  • 局限2:依赖外部库和框架,可能需要额外的配置。
来源:综合 README、代码结构和依赖分析

最新版本

v0.3.5.dev1 (2026-04-07): Dev release with Gemma 4 native tool calling, UI improvements, and several bug fixes.

来源:GitHub Releases

总结评价

oMLX 是一个功能强大的 LLM 推理服务器,适合需要高性能和易用性的开发者、研究人员和企业。它特别适合在 macOS 上进行 LLM 推理和模型管理。

来源:综合分析
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间:2026-04-08 18:36。质量评分:85/100。 所有结论均标注了数据来源。如发现不准确之处,欢迎反馈。

数据来源: README、GitHub API、依赖文件