BitNet(仓库内称 bitnet.cpp)是微软官方为「1-bit / 1.58-bit 大模型」打造的推理框架。它提供一套优化内核,让三值(ternary,权重取 -1/0/1)的 BitNet b1.58 这类极低比特模型能在 CPU 与 GPU 上快速、无损地推理(NPU 支持在路线图上)。项目基于 llama.cpp 框架,内核构建在 T-MAC 的查找表(Lookup Table)方法之上。它的核心价值是把「极低比特量化」从训练概念落地为可用的端侧推理工程:在单台 CPU 上就能跑动很大的 1.58-bit 模型,大幅降低本地运行 LLM 的算力与能耗门槛。
来源:README 顶部简介、Acknowledgements(基于 llama.cpp、T-MAC)、GitHub meta(microsoft/BitNet,MIT,Python) 查看 GitHub 仓库 →1-bit/1.58-bit LLM 是降低大模型推理成本最受关注的方向之一——微软研究院的「The Era of 1-bit LLMs」系列论文提出:把权重压到三值仍能保持竞争力,从而成倍降低显存、算力与能耗。bitnet.cpp 作为这一研究的官方推理落地,给出了可验证的工程数据:ARM CPU 上 1.37–5.07x 提速、能耗降低 55.4%–70.0%;x86 上 2.37–6.17x 提速、能耗降低 71.9%–82.2%;甚至能在单 CPU 上以接近人类阅读速度(5–7 tokens/s)跑动 100B 的 BitNet b1.58 模型。加上微软官方背书、配套发布了 BitNet-b1.58-2B-4T 模型,使它成为「端侧/本地 LLM」话题下的标杆项目,累计约 3.9 万星。
来源:README 性能数据段、What's New(论文与模型发布)、GitHub meta(stars 39077、created_at 2024-08-05)针对三值权重模型提供优化内核,在 ARM 与 x86 CPU 上相对基线提速数倍并显著降低能耗,且声称无损(不牺牲模型输出质量)。可在单台 CPU 上运行至 100B 规模的 BitNet b1.58 模型。
来源:README 顶部简介与性能数据段提供 I2_S、TL1、TL2 等内核,针对不同架构(x86/ARM)和模型做适配,部署时按平台选择对应内核以获得最佳性能。
来源:README Official Models / Supported Models 表(I2_S/TL1/TL2 与 x86/ARM 适配)已发布官方 GPU 推理内核;最新优化引入可配置 tiling 的并行内核实现与嵌入量化(embedding quantization),在不同硬件与负载上相对原实现再获 1.15–2.1x 提速。
来源:README「Latest optimization」段、What's New(2026-01-15 CPU 优化、2025-05-20 GPU 内核)、gpu/ 目录官方发布 BitNet-b1.58-2B-4T(2.4B)模型;并支持 Hugging Face 上既有的多种 1-bit 模型,如 bitnet_b1_58-large/3B、Llama3-8B-1.58-100B-tokens、Falcon3 与 Falcon-E 家族等。
来源:README Official Models / Supported Models 表提供 setup_env.py 一键准备环境与模型量化、run_inference.py 推理(支持对话模式)、run_inference_server.py 服务、e2e_benchmark.py 基准,以及从 .safetensors 转换、生成 dummy 模型用于跑分等实用脚本。
来源:README Installation/Usage/Benchmark 段、仓库根目录脚本(setup_env.py、run_inference.py、run_inference_server.py、utils/)bitnet.cpp 是一个 C++ 内核 + Python 工具脚本的推理框架,fork/构建在 llama.cpp 之上(以 git submodule 引入 3rdparty),内核方法源自微软 T-MAC 的查找表低比特计算。仓库结构:src/(核心内核与优化实现,含 README 优化指南)、include/(头文件)、gpu/(GPU 推理内核及其文档)、preset_kernels/(预置内核)、utils/(基准、模型转换、dummy 模型生成等)、docs/(文档)、3rdparty/(llama.cpp 等子模块),根目录有 CMakeLists.txt 与 setup_env.py、run_inference.py、run_inference_server.py 等入口。模型以 GGUF 格式承载,按 I2_S/TL1/TL2 量化方案与目标 CPU 架构选择内核;通过 setup_env.py 拉取/量化模型,再用 run_inference 加载 GGUF 推理。整体沿用 llama.cpp 的工程范式,但把计算核心替换为面向三值权重的查表内核以榨取低比特性能。
来源:README Acknowledgements/Installation、仓库目录树(src、include、gpu、preset_kernels、utils、3rdparty、CMakeLists.txt)、.gitmodules中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
llama.cpp(3rdparty 子模块)T-MAC 查找表低比特计算方法CMake + clang(构建)conda + requirements.txt(Python 环境,推…GGUF 模型格式,I2_S/TL1/TL2 量化内核适用于希望在本地或边缘设备低成本、低能耗运行大模型的场景:在普通 CPU(笔记本、ARM 设备、服务器)上跑 1.58-bit 的 BitNet/Llama3-1.58/Falcon 等模型做对话或文本生成;为隐私敏感、离线或资源受限环境提供可落地的本地推理;用其基准与 dummy 模型工具评估不同内核/硬件下的低比特推理性能;以及作为研究 1-bit LLM 推理工程、查找表内核与极低比特量化的参考实现。对想验证「1.58-bit 能否在自己机器上接近可用」的开发者尤其合适。
来源:README 简介(端侧推理潜力)、Supported Models、Usage/Benchmark 段bitnet.cpp 1.0 于 2024-10-17 发布。此后持续更新:2025-04-14 发布官方 BitNet-b1.58-2B-4T 模型,2025-05-20 发布官方 GPU 推理内核,2026-01-15 推出 CPU 推理优化(并行内核 + 可配置 tiling + 嵌入量化,再获 1.15–2.1x 提速)。相关论文包括 1-bit AI Infra(arXiv 2410.16144)、Ternary LLM 边缘推理(2502.11880)、BitNet a4.8(2411.04965)等。仓库最近更新在 2026-03-10。
来源:README What's New 时间线、Latest optimization 段、GitHub meta pushed_at 2026-03-10bitnet.cpp 是 1-bit/1.58-bit LLM 推理领域分量最重的工程落地:微软官方、MIT、基于 llama.cpp 生态,配有可复现的提速与能耗数据,并已从 CPU 扩展到 GPU 与并行优化。对想在普通硬件上低成本、低能耗跑大模型,或研究极低比特推理的人来说,它几乎是首选参考实现。最大的现实约束不在框架本身,而在生态——真正高质量、规模可观的 1.58-bit 模型仍偏少,框架的价值要随这类模型变多才能完全释放。如果你手上有合适的三值模型、或想验证端侧 1-bit 推理的可行性,这个项目非常值得上手;它也是观察「1-bit LLM 能走多远」的最佳窗口之一。
来源:综合 README、性能数据、生态现状与 GitHub meta 的事实判断