Claude Code Local 让你在 Apple Silicon 上 100% 本地、离线运行 Claude Code:它用一个 MLX 原生、约 1000 行 Python 的服务器假扮成 Anthropic API,Claude Code 以为在跟云端说话,其实请求都打到本机 M 系列 GPU 上跑的本地大模型(Qwen 3.5 122B、Llama 3.3 70B、Gemma 4 31B、Hermes 4 等)。卖点是私密、离线、可断网(airgap),面向 NDA/法律/医疗等不能把代码与数据上云的场景。代码不出本机、无遥测、无订阅。MIT,仅限 Apple Silicon(macOS)。
来源:README What Is This/How It Works/Safety;GitHub desc,license MIT 查看 GitHub 仓库 →约 2.7k 星,热度踩在一个真实顾虑:Claude Code 很好用但要把代码发到云端,NDA/法律/医疗等场景不能接受。这个项目用 MLX 把 Claude Code 接到本机大模型、完全离线,还做了诸如 code mode 把 prompt token 砍 28 倍、工具调用格式翻译、思考标签实时过滤等让本地小模型也能跑通 Claude Code 的工程,对注重隐私、想离线用 Claude Code 的 Mac 用户很有吸引力。
来源:GitHub 2,670 stars / 513 forks,created 2026-03-26;README Safety/Tool-Call Reliability约 1000 行 Python(proxy/server.py)用 Apple MLX + Metal GPU + 统一内存加载本地模型,对 Claude Code 暴露 Anthropic 兼容 API(端口 4000),让 Claude Code 无感地跑在本地模型上;自动处理 Gemma 的 RotatingKVCache 等怪癖。
来源:README How It Works;proxy/server.py支持 Gemma 4 31B(快速日用)、Llama 3.3 70B(接近全精度手感)、Qwen 3.5 122B(最强)、Hermes 4 14B(16/32GB Mac 甜点)等,并有自家 MLX abliterated 上传与 DeepSeek V4 Flash(ds4)接入,约 18-75GB 一次性下载。
来源:README The Lineup/Our Own MLX Uploads翻译三种工具调用格式(Gemma 原生 / Llama 原始 JSON / HF tool_call)↔ Anthropic tool_use 并做乱码恢复;ThinkingFilter 边生成边逐 token 剥掉思考标签;跨请求复用 prompt cache;code mode 自动识别编码会话、把 ~10K token 的 harness 提示词换成 ~150 token、工具描述砍到名+参数(约 28× 缩减,Gemma 4 31B 的 prefill 从 ~60s 降到 ~2s)。
来源:README How It Works(6 件事)/Tool-Call Reliability代码与数据从不离开本机:不为模型调用、不为遥测、不为『匿名分析』上云;可断网 airgap 运行,面向 NDA/法律/医疗工作流;README 附完整数据流图与逐组件审计、说明删掉了哪些联网组件。
来源:README Safety + How the Data Flows可全程免手操作的语音会话——用你克隆的声音说问题、听回复,双向都在本机;可从手机控制(含 iMessage 媒体管线);Claude Code 的 MCP 插件生态也能 100% 本地跑。
来源:README What Is This/Control From Your Phone/MCP Servers核心是一个约 1000 行的 Python 代理服务器 proxy/server.py:它在本机用 Apple MLX 框架加载量化后的大模型(走 Metal GPU + 统一内存),对外暴露 Anthropic 兼容 API(端口 4000),Claude Code 直接把 base 指向它即可无感切到本地。服务器做六件事:加载模型(处理 Gemma RotatingKVCache)、说 Anthropic API、翻译多家工具调用格式、实时清理本地模型的思考/停止标记、跨请求复用 prompt cache、以及 code mode 大幅压缩提示词与工具描述。仓库还有 launchers/(启动器)、scripts/、setup.sh/uninstall.sh(环境与 MLX venv)、NarrativeGemma/(自有模型相关)、IMESSAGE_MEDIA_PIPELINE.md(手机/语音媒体管线)、docs/。整体是『MLX 本地模型 + 假扮 Anthropic API 的轻代理 + 让小模型跑通 Claude Code 的一堆适配』,定位是把云端 Claude Code 体验整体搬到 Apple Silicon 本机、完全离线。
来源:README How It Works;tree(proxy/、launchers/、scripts/、setup.sh、NarrativeGemma/)中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成
Apple MLX / Metal GPU本地模型(Qwen 3.5/Llama 3.3/Gemma 4/Herm…Claude Code(前端)MCP(本地)语音克隆(本地 TTS/STT)适合:①NDA/法律/医疗/政府等不能把代码数据上云、又想用 Claude Code 的人;②注重隐私、想完全离线/断网用 AI 编码的 Apple Silicon 用户;③有较大内存 Mac、想本地跑 70B/122B 模型省订阅费的人;④想要本地语音编码会话或手机控制的人。不适合:非 Apple Silicon(Windows/Linux/Intel Mac)用户;内存不足跑不动大模型的机器;以及对编码质量要求等同前沿云模型的人——本地模型与 Claude/GPT 仍有差距。
来源:README What Is This/What You Need/vs Cloud APIs,结合定位推断仓库无正式 GitHub Release,以主分支持续更新(最近 push 2026-05-22,创建于 2026-03-26)。README 记录了 v2(2026-03)的工具调用可靠性修复、新增 Hermes 4 14B(2026-05)与 DeepSeek V4 Flash 接入等,处于活跃迭代期。
来源:GitHub 无 releases;pushed_at 2026-05-22;README Tool-Call Reliability/LineupClaude Code Local 干的是一件对隐私/合规人群很有价值的事:让 Claude Code 完全跑在 Apple Silicon 本机的开源模型上、彻底离线、代码不出机。它最见功力的地方不是『接个本地模型』,而是用约 1000 行代理把多家工具调用格式翻译、思考标签实时过滤、prompt cache 复用、code mode 把提示词砍 28 倍这些活做扎实,让本地中小模型也能真正跑通 Claude Code,还附了透明的数据流审计。要清醒它的边界:只支持 Apple Silicon、大模型吃内存、本地模型质量仍逊于前沿云模型、且靠假扮 API 需随 Claude Code 更新维护。对 NDA/法律/医疗等不能上云、又有大内存 Mac 的人,这是目前把 Claude Code 本地化做得最完整的方案之一。
来源:综合 README 定位/工程/审计、tree 架构、硬件与质量局限的事实判断