AirLLM(lyogavin/airllm)是一个优化大模型推理显存占用的 Python 库,核心卖点是「让 70B 大模型在单张 4GB GPU 上做推理」,且不依赖量化、蒸馏或剪枝;README 还称可在 8GB 显存上跑 Llama3.1 405B。其思路是按层(layer-by-layer)加载与计算,把同一时刻常驻显存的权重降到很低,以时间换显存。支持 Llama/Mixtral/Qwen/ChatGLM/Baichuan/Mistral/InternLM 等模型,也支持 CPU 推理与可选量化。Apache-2.0 许可,约 18,259 stars,以 Jupyter Notebook 为主语言,PyPI 包名 airllm。
来源:README.md(标题、AirLLM 说明、Updates、Quickstart);GitHub 仓库元数据(stars=18259、language=Jupyter Notebook、license=Apache-2.0) 查看 GitHub 仓库 →消费级显卡显存有限,跑大模型通常需多卡或激进量化。AirLLM 用「分层加载」让小显存也能对超大模型做推理,话题性强、对资源受限的个人用户有吸引力,因而获得高 star。需要客观说明:这是用磁盘/内存换显存、逐层加载的方案,单次推理延迟较高,更适合离线/实验性使用而非低延迟服务;且仓库更新约停在 2024 年 8 月(最新支持到 Qwen2.5、Llama3.1 405B),较新模型未必覆盖。「4GB 跑 70B」是其设计目标,实际速度取决于存储与配置。截至数据采集约 18,259 stars。
来源:README.md(标题、Updates 时间线);GitHub 仓库元数据(stars=18259、pushed_at 2024-03/更新止于 2024-08)逐层加载/释放权重,把显存峰值压到单层规模,使 70B/405B 等大模型可在小显存 GPU 推理。
来源:README.md(标题、AirLLM 说明)支持 Llama2/3/3.1、Mixtral、Qwen(含 2.5)、ChatGLM、Baichuan、Mistral、InternLM 等开源模型。
来源:README.md(Updates 时间线、Supported Models)提供压缩(约 3x 提速)、prefetching(加载/计算重叠)、safetensors、AutoModel 自动识别等。
来源:README.md(Updates 的 v2.0/v2.5/v2.6/safetensors)支持可选 8bit/4bit 量化、CPU 推理与 MacOS 上运行 70B 模型。
来源:README.md(Updates 的量化、CPU、MacOS)AirLLM 的关键是分层推理:把模型按 transformer 层切分,推理时逐层把所需权重加载到显存、算完即释放,从而把显存峰值压到单层规模,使 4GB 这类小卡也能跑超大模型;代价是频繁的权重加载带来额外耗时。库还做了若干优化:v2.0 的压缩(声称约 3x 提速)、prefetching(加载与计算重叠,约 10% 提速)、safetensors 支持、AutoModel 自动识别模型类型,以及可选 8bit/4bit 量化与 CPU 推理。用法上与普通 transformer 类似:用 AirLLMLlama2 等类传入 HuggingFace repo ID 或本地路径即可推理。
来源:README.md(标题、Updates 的压缩/prefetch/AutoModel、Quickstart)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
PyTorch / HuggingFace Transformerssafetensors可选 8bit/4bit 量化适合显存受限又想在本地跑超大模型做实验的个人与研究者:在单张小显存 GPU(甚至 CPU/MacOS)上对 70B、乃至 405B 量级模型做离线推理、原型验证或学习大模型推理机制;也适合无多卡条件时的低成本试跑。不适合对延迟敏感的在线服务(分层加载耗时较高),生产高吞吐场景仍建议用 vLLM/SGLang 等专用推理引擎配合足够显存。
来源:README.md(标题、AirLLM 说明、Updates 的 CPU/MacOS)README 更新止于 2024 年中:2024/08/20 v2.11.0 支持 Qwen2.5;2024/08/18 v2.10.1 支持 CPU 推理与非分片模型;2024/07/30 支持 Llama3.1 405B 与 8bit/4bit 量化。版本见 PyPI(airllm)。仓库最后更新约在 2026 年 3 月,但功能更新主要集中在 2023–2024。
来源:README.md(Updates 时间线、PyPI 徽章);GitHub pushed_atAirLLM 是一个以「分层加载」压低显存峰值的推理库,能让单张 4GB/8GB GPU(甚至 CPU/MacOS)对 70B 乃至 405B 量级大模型做离线推理,思路新颖、安装简单、模型支持广,对显存受限想本地试跑大模型的个人与研究者很有价值。但它本质是以时间换显存、单次推理延迟高,不适合低延迟在线服务;且功能更新主要止于 2024 年中,较新模型未必覆盖,生产高吞吐仍需专用引擎。作为资源受限下的实验性大模型推理方案,定位清晰、话题性强。
来源:综合 README.md 的定位、分层加载原理、能力与更新现状