claude-code-local 是什么?

Claude Code Local 让你在 Apple Silicon 上 100% 本地、离线运行 Claude Code:它用一个 MLX 原生、约 1000 行 Python 的服务器假扮成 Anthropic API,Claude Code 以为在跟云端说话,其实请求都打到本机 M 系列 GPU 上跑的本地大模型(Qwen 3.5 122B、Llama 3.3 70B、Gemma 4 31B、Hermes 4 等)。卖点是私密、离线、可断网(airgap),面向 NDA/法律/医疗等不能把代码与数据上云的场景。代码不出本机、无遥测、无订阅。MIT,仅限 Apple Silicon(macOS)。

⭐ 2,204 Stars 🍴 418 Forks Python 作者: nicedreamzapp
来源:README What Is This/How It Works/Safety;GitHub desc,license MIT 查看 GitHub 仓库 →

为什么值得关注

约 2.7k 星,热度踩在一个真实顾虑:Claude Code 很好用但要把代码发到云端,NDA/法律/医疗等场景不能接受。这个项目用 MLX 把 Claude Code 接到本机大模型、完全离线,还做了诸如 code mode 把 prompt token 砍 28 倍、工具调用格式翻译、思考标签实时过滤等让本地小模型也能跑通 Claude Code 的工程,对注重隐私、想离线用 Claude Code 的 Mac 用户很有吸引力。

来源:GitHub 2,670 stars / 513 forks,created 2026-03-26;README Safety/Tool-Call Reliability

核心功能

MLX 原生本地 Anthropic-API 服务器

约 1000 行 Python(proxy/server.py)用 Apple MLX + Metal GPU + 统一内存加载本地模型,对 Claude Code 暴露 Anthropic 兼容 API(端口 4000),让 Claude Code 无感地跑在本地模型上;自动处理 Gemma 的 RotatingKVCache 等怪癖。

来源:README How It Works;proxy/server.py
多模型『选你的拳手』

支持 Gemma 4 31B(快速日用)、Llama 3.3 70B(接近全精度手感)、Qwen 3.5 122B(最强)、Hermes 4 14B(16/32GB Mac 甜点)等,并有自家 MLX abliterated 上传与 DeepSeek V4 Flash(ds4)接入,约 18-75GB 一次性下载。

来源:README The Lineup/Our Own MLX Uploads
让本地模型跑通 Claude Code 的工程

翻译三种工具调用格式(Gemma 原生 / Llama 原始 JSON / HF tool_call)↔ Anthropic tool_use 并做乱码恢复;ThinkingFilter 边生成边逐 token 剥掉思考标签;跨请求复用 prompt cache;code mode 自动识别编码会话、把 ~10K token 的 harness 提示词换成 ~150 token、工具描述砍到名+参数(约 28× 缩减,Gemma 4 31B 的 prefill 从 ~60s 降到 ~2s)。

来源:README How It Works(6 件事)/Tool-Call Reliability
完全离线、可断网、无遥测

代码与数据从不离开本机:不为模型调用、不为遥测、不为『匿名分析』上云;可断网 airgap 运行,面向 NDA/法律/医疗工作流;README 附完整数据流图与逐组件审计、说明删掉了哪些联网组件。

来源:README Safety + How the Data Flows
语音模式、手机控制、本地 MCP

可全程免手操作的语音会话——用你克隆的声音说问题、听回复,双向都在本机;可从手机控制(含 iMessage 媒体管线);Claude Code 的 MCP 插件生态也能 100% 本地跑。

来源:README What Is This/Control From Your Phone/MCP Servers

技术架构

核心是一个约 1000 行的 Python 代理服务器 proxy/server.py:它在本机用 Apple MLX 框架加载量化后的大模型(走 Metal GPU + 统一内存),对外暴露 Anthropic 兼容 API(端口 4000),Claude Code 直接把 base 指向它即可无感切到本地。服务器做六件事:加载模型(处理 Gemma RotatingKVCache)、说 Anthropic API、翻译多家工具调用格式、实时清理本地模型的思考/停止标记、跨请求复用 prompt cache、以及 code mode 大幅压缩提示词与工具描述。仓库还有 launchers/(启动器)、scripts/、setup.sh/uninstall.sh(环境与 MLX venv)、NarrativeGemma/(自有模型相关)、IMESSAGE_MEDIA_PIPELINE.md(手机/语音媒体管线)、docs/。整体是『MLX 本地模型 + 假扮 Anthropic API 的轻代理 + 让小模型跑通 Claude Code 的一堆适配』,定位是把云端 Claude Code 体验整体搬到 Apple Silicon 本机、完全离线。

来源:README How It Works;tree(proxy/、launchers/、scripts/、setup.sh、NarrativeGemma/)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) Apple MLX / Metal GPUApple MLX / Me… 本地模型(Qwen 3.5/Llama 3.3/Gemma 4/Hermes 4 的 MLX 量化版)本地模型(Qwen… Claude Code(前端)Claude Code(… MCP(本地) 语音克隆(本地 TTS/STT)语音克隆(本地 T… MLX 原生本地 Anthropic-API 服务器MLX 原生本地 Anthrop… 多模型『选你的拳手』 让本地模型跑通 Claude Code 的工程让本地模型跑通 Claude… 完全离线、可断网、无遥测完全离线、可断网、无遥… 语音模式、手机控制、本地 MCP语音模式、手机控制、本… claude-code-local 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python框架Apple MLX(本地推理)+ Anthropic 兼容代理
Apple MLX / Metal GPU本地模型(Qwen 3.5/Llama 3.3/Gemma 4/Herm…Claude Code(前端)MCP(本地)语音克隆(本地 TTS/STT)
仅 Apple Silicon(M 系列)macOS;完全本地/离线/可 airgap;需约 18-75GB 下载模型;端口 4000
来源:README What You Need/How It Works;GitHub desc

快速上手

前置:Apple Silicon Mac(内存越大能跑越大的模型)+ Claude Code。三步快速开始:跑 setup.sh(或手动建 MLX venv)→ 选一个『拳手』下载模型(一次性约 18-75GB)→ 启动服务器(proxy/server.py,端口 4000)→ 启动 Claude Code 指向本地。之后 Claude Code 完全跑在本机模型上、断网可用。想要语音会话/手机控制/本地 MCP 见对应文档。内存有限选 Gemma 4 31B 或 Hermes 4 14B,追求质量选 Llama 70B / Qwen 122B。
来源:README Quick Start/What You Need

使用场景

适合:①NDA/法律/医疗/政府等不能把代码数据上云、又想用 Claude Code 的人;②注重隐私、想完全离线/断网用 AI 编码的 Apple Silicon 用户;③有较大内存 Mac、想本地跑 70B/122B 模型省订阅费的人;④想要本地语音编码会话或手机控制的人。不适合:非 Apple Silicon(Windows/Linux/Intel Mac)用户;内存不足跑不动大模型的机器;以及对编码质量要求等同前沿云模型的人——本地模型与 Claude/GPT 仍有差距。

来源:README What Is This/What You Need/vs Cloud APIs,结合定位推断

优势与局限

优势

  • 解决真实刚需:让 Claude Code 完全本地离线跑,代码不出本机、无遥测、可 airgap,隐私/合规友好
  • 工程很扎实:约 1000 行代理 + 多工具格式翻译 + 思考标签实时过滤 + code mode 28× 压提示词,让本地小模型也能跑通
  • 多模型可选,按内存选拳手,并复用 prompt cache、显著降 prefill,体验比裸跑顺
  • 附完整数据流审计、说明删掉哪些联网组件,透明度高;MIT、无订阅
  • 额外能力丰富:本地语音会话、手机控制、本地 MCP 生态

局限

  • 仅限 Apple Silicon,且大模型对内存要求高(122B 需很大内存),硬件门槛明显
  • 本地模型的编码质量与速度仍逊于前沿云模型,复杂任务体验有差距
  • 靠假扮 Anthropic API + 大量适配让 Claude Code 跑通,Claude Code 更新可能需要跟进维护
  • 首次需下载 18-75GB 模型,安装与调参(量化/上下文/工具可靠性)有一定门槛
  • 提供 abliterated(去审查)模型上传,使用此类模型的内容安全责任在用户
来源:README What You Need/Benchmarks/Tool-Call Reliability;本地模型的固有局限

最新版本

仓库无正式 GitHub Release,以主分支持续更新(最近 push 2026-05-22,创建于 2026-03-26)。README 记录了 v2(2026-03)的工具调用可靠性修复、新增 Hermes 4 14B(2026-05)与 DeepSeek V4 Flash 接入等,处于活跃迭代期。

来源:GitHub 无 releases;pushed_at 2026-05-22;README Tool-Call Reliability/Lineup

总结评价

Claude Code Local 干的是一件对隐私/合规人群很有价值的事:让 Claude Code 完全跑在 Apple Silicon 本机的开源模型上、彻底离线、代码不出机。它最见功力的地方不是『接个本地模型』,而是用约 1000 行代理把多家工具调用格式翻译、思考标签实时过滤、prompt cache 复用、code mode 把提示词砍 28 倍这些活做扎实,让本地中小模型也能真正跑通 Claude Code,还附了透明的数据流审计。要清醒它的边界:只支持 Apple Silicon、大模型吃内存、本地模型质量仍逊于前沿云模型、且靠假扮 API 需随 Claude Code 更新维护。对 NDA/法律/医疗等不能上云、又有大内存 Mac 的人,这是目前把 Claude Code 本地化做得最完整的方案之一。

来源:综合 README 定位/工程/审计、tree 架构、硬件与质量局限的事实判断
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-23 00:12. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件