Blaizzy/mlx-vlm

⭐ 4,121 Stars 🍴 438 Forks Python

MLX-VLM 是一个用于在 Mac 上进行视觉语言模型 (VLM) 推理和微调的开源 Python 包,支持图像、音频和视频等多模态数据。

来源:据 README 描述 查看 GitHub 仓库 →

为什么值得关注

MLX-VLM 受关注的原因包括其支持多模态数据处理的独特性,填补了在 Mac 平台上进行 VLM 推理和微调的空白。它使用 MLX 库,提供了丰富的 CLI 和 Python API,方便开发者进行模型推理和定制化。

来源:综合 README 描述和项目特征

核心功能

推理和微调

MLX-VLM 支持多种视觉语言模型的推理和微调,包括图像、音频和视频等多模态数据,通过 CLI 和 Python API 进行操作。

来源:据 README 描述
多模态支持

MLX-VLM 支持图像、音频和视频等多模态数据的处理,能够生成包含多种模态信息的输出。

来源:据 README 描述
CLI 和 Python API

MLX-VLM 提供了丰富的 CLI 和 Python API,方便开发者进行模型推理和定制化。

来源:据 README 描述

技术架构

MLX-VLM 采用模块化设计,代码目录结构清晰,包括 CLI 工具、Python API 和模型特定文档。依赖文件表明项目使用了 MLX 库、Transformers 和 Datasets 等关键库,数据流转通过这些库进行。

来源:代码目录结构 + 依赖文件

技术栈

infra: 本地运行,通过 CLI 或 Python 脚本启动  |  key_deps: mlx, transformers, datasets, miniaudio, tqdm, Pillow, requests, mlx-lm, opencv-python, fastapi, uvicorn, numpy  |  language: Python  |  framework: MLX, Transformers, Datasets

来源:依赖文件 + 代码目录结构

快速上手

pip install -U mlx-vlm # 使用 CLI 进行推理 mlx_vlm.generate --model mlx-community/Qwen2-VL-2B-Instruct-4bit --max-tokens 100 --prompt "Hello, how are you?"
来源:README Installation/Quick Start

使用场景

MLX-VLM 适用于需要处理视觉语言模型的应用,如图像描述生成、视频内容分析、多模态问答系统等。

来源:README

优势与局限

优势

  • 支持多模态数据处理
  • 提供丰富的 CLI 和 Python API
  • 易于使用和集成

局限

  • 仅支持 Mac 平台
  • 可能需要较高的计算资源
来源:综合 README、代码结构和依赖分析

最新版本

v0.4.4 (2026-04-04): 修复 Gemma 4 chunked prefill for KV-shared models and thinking v0.4.3 (2026-04-02): 添加 SAM 3.1 with Object Multiplex and optimized realtime pipeline v0.4.2 (2026-03-28): 确保模型卡片中存在最小元数据 v0.4.1 (2026-03-21): 添加 --model 和 --adapter-path 标志以在启动时预加载模型 v0.4.0 (2026-03-07): 修复 gemma3n 短提示问题,添加全权重微调

来源:GitHub Releases

总结评价

MLX-VLM 是一个值得关注的项目,特别是对于需要处理视觉语言模型的应用的开发者。它提供了丰富的功能和易于使用的 API,适合对多模态数据处理有需求的团队或个人使用。

来源:综合分析
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间:2026-04-10 06:35。质量评分:85/100。 所有结论均标注了数据来源。如发现不准确之处,欢迎反馈。

数据来源: README、GitHub API、依赖文件