MLX-VLM 是一个用于在 Mac 上(基于 Apple 的 MLX 框架)推理与微调视觉语言模型(VLM)和 Omni 模型(支持音频、视频的 VLM)的 Python 包。它面向 Apple Silicon,把大量开源多模态模型(含各种 VLM 与 OCR 模型,如 Qwen-VL、Gemma 4、DeepSeek-OCR、Moondream、MiniCPM-V、Granite Vision 等)的本地运行与微调封装好,提供 CLI、Gradio 聊天 UI、FastAPI 服务端和 Python API 多种用法。许可为 MIT,约 4,765 stars,可经 pip 安装。
来源:README.md(首段、Model-Specific Documentation 表、Usage);GitHub 仓库元数据(stars=4765、license=MIT、language=Python、topics 含 apple-silicon/mlx) 查看 GitHub 仓库 →在 Mac(Apple Silicon)上本地跑多模态模型的需求增长很快,而 MLX 是 Apple 官方的高效机器学习框架。MLX-VLM 是该生态里覆盖最广、更新最快的 VLM/Omni 推理与微调库之一——紧跟最新模型(Gemma 4、Qwen3.5、各类 OCR 模型)、支持思考预算、投机解码、连续批处理、KV 缓存量化、分布式推理等进阶能力,让 Mac 用户能本地、私密地用上前沿多模态模型,因而持续受关注。截至数据采集约 4,765 stars。
来源:README.md(首段、Table of Contents 的进阶能力、Model-Specific Documentation);GitHub 仓库元数据(stars=4765)在 Mac 上对 VLM 与 Omni 模型做文本、图像、音频乃至图像+音频的多模态生成,支持多图聊天;通过 CLI、Gradio UI 或 Python 均可调用。
来源:README.md(Usage → CLI 各示例、Multi-Image Chat Support)提供 mlx_vlm.server,支持连续批处理、自动前缀缓存(APC)、KV 缓存量化等服务化推理优化,便于本地部署接口。
来源:README.md(Server (FastAPI) → Continuous Batching / APC / KV Cache Quantization)为思考型模型提供 thinking budget 控制思考块 token 上限并强制切换到答案;支持投机解码(Qwen3.5 的 DFlash、Gemma 4 MTP)加速。
来源:README.md(Thinking Budget、Speculative Decoding 段落)覆盖大量 VLM/OCR/Omni 模型(Qwen-VL、Gemma 4、DeepSeek-OCR、Moondream3、MiniCPM-V、Granite Vision、Phi-4 多模态等),并支持微调、视觉特征缓存、TurboQuant KV 缓存与分布式推理。
来源:README.md(Model-Specific Documentation 表、Vision Feature Caching/TurboQuant/Distributed Inference/Fine-tuning)MLX-VLM 是一个 Python 包(pip install mlx-vlm),底层基于 Apple 的 MLX。它为每个支持的模型提供适配实现(mlx_vlm/models/ 下按模型组织,含各自的 README/prompt 格式),统一暴露生成与微调接口。使用入口多样:CLI(mlx_vlm.generate 做文本/图像/音频/多模态生成)、Gradio 聊天 UI、FastAPI 服务端(mlx_vlm.server,支持连续批处理 Continuous Batching、自动前缀缓存 APC、KV 缓存量化),以及 Python 脚本。进阶能力包括思考预算(限制思考块 token)、投机解码(DFlash for Qwen3.5、Gemma 4 MTP)、视觉特征缓存、TurboQuant KV 缓存、分布式推理和微调。多图聊天与多种 OCR/VLM 模型均有专门文档。
来源:README.md(Usage 各入口、Server 子能力、Speculative Decoding、Vision Feature Caching/TurboQuant/Distributed/Fine-tuning、Model-Specific Documentation)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
MLX(Apple 机器学习框架)Apple Silicon 硬件mlx-community 上的量化模型适合 Mac(Apple Silicon)用户在本地、私密地运行和微调多模态模型:做图像理解与问答、文档 OCR(多款 OCR 模型)、音频/视频理解(Omni 模型)、多图对话,或把模型以 FastAPI 服务的形式部署供应用调用;研究者还可用它做 VLM 微调与分布式推理实验。它紧跟最新开源多模态模型,是 Mac 上端侧多模态的实用基础设施。需要 Apple Silicon 硬件,且大模型仍受设备内存约束。
来源:README.md(首段、Usage、Model-Specific Documentation、Fine-tuning/Distributed Inference)本页未列出具体版本号;项目通过 GitHub Actions 自动发布到 PyPI(mlx-vlm),更新非常活跃,持续新增对最新多模态模型(如 Gemma 4、Qwen3.5、各类 OCR 模型)的支持与推理优化(投机解码、KV 缓存量化、连续批处理等)。
来源:README.md(Model-Specific Documentation 的新模型、Speculative Decoding/Server 能力);GitHub 徽章(python-publish)MLX-VLM 是 Mac 上跑多模态模型的事实标准之一:基于 Apple MLX,覆盖大量 VLM/OCR/Omni 模型、更新紧跟前沿,并提供 CLI、UI、FastAPI 服务和微调等完整能力,还带连续批处理、KV 量化、投机解码等优化。对想在 Apple Silicon 上本地、私密使用或微调多模态模型的开发者和研究者,它是首选基础设施。边界也清晰——只服务 Mac/Apple Silicon、受统一内存约束、且面向开发者。作为端侧多模态的开源底座,它实用、活跃、覆盖广。
来源:综合 README.md 的能力覆盖、平台定位与优化特性