LLaVA(haotian-liu/LLaVA,Large Language and Vision Assistant)是「视觉指令微调(Visual Instruction Tuning)」的代表性开源工作,目标是构建接近 GPT-4V 水平的大型多模态模型(LMM)。它把视觉编码器与大语言模型对齐,再用指令数据微调,使模型能看图对话、回答视觉问题。论文为 NeurIPS 2023 Oral,后续有 LLaVA-1.5、LLaVA-NeXT(1.6) 等改进版本(支持 Llama-3、Qwen 等更强底座,处理更高分辨率)。Apache-2.0 许可,约 24,829 stars,主语言 Python,提供在线 Demo、Model Zoo 与数据文档。
来源:README.md(标题、论文、Release);GitHub 仓库元数据(stars=24829、language=Python、license=Apache-2.0) 查看 GitHub 仓库 →LLaVA 是多模态大模型领域的奠基性开源工作之一:用「GPT-4 生成的视觉指令数据 + 简单的视觉-语言对齐」就达到强多模态对话能力,方法简洁、可复现、训练成本相对低,催生了大量后续模型与社区生态(llama.cpp、BakLLaVA、HF Space、Replicate 等)。其后 LLaVA-NeXT 进一步提升并在部分基准上对标商业模型。需说明:本仓库为初代/1.5 主线,最新迭代已转到独立的 LLaVA-NeXT 仓库(LLaVA-VL/LLaVA-NeXT),本仓库最后更新约在 2024 年 8 月。「对标 GPT-4V / 超过 Gemini Pro」为论文/博客特定基准表述,需以原文为准。截至数据采集约 24,829 stars。
来源:README.md(论文、Release、Community Contributions);GitHub 仓库元数据(stars=24829、pushed_at 2024-08)用 GPT-4 生成的视觉指令数据微调,让视觉-语言模型具备看图对话与视觉问答能力。
来源:README.md(标题、Visual Instruction Tuning 论文)视觉编码器 + 投影层 + LLM 的两阶段训练(对齐 → 指令微调),方法简单可复现。
来源:README.md(论文 Improved Baselines with Visual Instruction Tuning)LLaVA-1.5 提升基线,LLaVA-NeXT(1.6) 支持更高分辨率与 Llama-3/Qwen 底座,并扩展到视频。
来源:README.md(Release 时间线)提供在线 Demo、Model Zoo、数据文档与配套评测(LMMs-Eval),社区有多种部署集成。
来源:README.md(顶部链接、Release 的 LMMs-Eval、Community Contributions)LLaVA 的核心架构是「视觉编码器(如 CLIP ViT)+ 投影层 + 大语言模型」:图像经视觉编码器得到特征,通过一个投影(projection)映射到 LLM 的词嵌入空间,与文本一起送入 LLM 处理,从而实现图文统一对话。训练分两阶段:先用图文对做特征对齐(预训练投影层),再用 GPT-4 构造的视觉指令数据做指令微调。LLaVA-1.5 改进了投影(MLP)、数据与提示模板;LLaVA-NeXT 支持更高分辨率(4x 像素)、更强 LLM 底座并扩展到视频。仓库提供训练/推理代码、数据说明与 Model Zoo。
来源:README.md(标题、论文 Improved Baselines、Release 对 NeXT 的描述、Data/Model Zoo)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
PyTorchCLIP 视觉编码器LLaMA/Vicuna 等 LLM 底座(NeXT 支持 Llama-…HuggingFace 生态适合多模态研究者与开发者:作为视觉指令微调的经典基线复现与教学、构建看图对话/视觉问答助手、在自有图文数据上微调多模态模型,或作为理解 LMM 架构(视觉编码器+投影+LLM)的入门实现。也适合接入社区生态(llama.cpp 量化、HF Space、Replicate)做轻量部署。需要更强能力或视频支持时使用 LLaVA-NeXT。
来源:README.md(论文、Release、Community Contributions)本仓库 Release 时间线止于 2024 年中:2024/05/10 LLaVA-NeXT(更强模型与视频版)、2024/01/30 LLaVA-NeXT(1.6) 等,但这些最新工作的代码已迁至独立的 LLaVA-VL/LLaVA-NeXT 仓库。本仓库聚焦 LLaVA/LLaVA-1.5 主线,最后更新约在 2024 年 8 月。
来源:README.md(Release 时间线与 NeXT 代码库链接);GitHub pushed_atLLaVA 是视觉指令微调的奠基性开源工作:用「视觉编码器 + 投影 + LLM」的简洁架构和 GPT-4 生成的指令数据,低成本实现强多模态对话,论文为 NeurIPS 2023 Oral,催生了庞大的 LMM 生态,对理解与复现多模态大模型极有价值。要清楚本仓库是初代/1.5 主线、最新迭代已转到 LLaVA-NeXT 独立仓库、本仓库更新已停在 2024 年中、性能对标表述需看原文。作为多模态领域的经典起点与教学基线,地位与参考价值都很高。
来源:综合 README.md 的定位、架构、系列演进与维护现状