claude-code-local 深度解析：架构、场景与部署指南（2K★）

为什么值得关注

约 2.7k 星，热度踩在一个真实顾虑：Claude Code 很好用但要把代码发到云端，NDA/法律/医疗等场景不能接受。这个项目用 MLX 把 Claude Code 接到本机大模型、完全离线，还做了诸如 code mode 把 prompt token 砍 28 倍、工具调用格式翻译、思考标签实时过滤等让本地小模型也能跑通 Claude Code 的工程，对注重隐私、想离线用 Claude Code 的 Mac 用户很有吸引力。

来源：GitHub 2,670 stars / 513 forks，created 2026-03-26；README Safety/Tool-Call Reliability

核心功能

MLX 原生本地 Anthropic-API 服务器

约 1000 行 Python（proxy/server.py）用 Apple MLX + Metal GPU + 统一内存加载本地模型，对 Claude Code 暴露 Anthropic 兼容 API（端口 4000），让 Claude Code 无感地跑在本地模型上；自动处理 Gemma 的 RotatingKVCache 等怪癖。

来源：README How It Works；proxy/server.py

多模型『选你的拳手』

支持 Gemma 4 31B（快速日用）、Llama 3.3 70B（接近全精度手感）、Qwen 3.5 122B（最强）、Hermes 4 14B（16/32GB Mac 甜点）等，并有自家 MLX abliterated 上传与 DeepSeek V4 Flash（ds4）接入，约 18-75GB 一次性下载。

来源：README The Lineup/Our Own MLX Uploads

让本地模型跑通 Claude Code 的工程

翻译三种工具调用格式（Gemma 原生 / Llama 原始 JSON / HF tool_call）↔ Anthropic tool_use 并做乱码恢复；ThinkingFilter 边生成边逐 token 剥掉思考标签；跨请求复用 prompt cache；code mode 自动识别编码会话、把 ~10K token 的 harness 提示词换成 ~150 token、工具描述砍到名+参数（约 28× 缩减，Gemma 4 31B 的 prefill 从 ~60s 降到 ~2s）。

来源：README How It Works（6 件事）/Tool-Call Reliability

完全离线、可断网、无遥测

代码与数据从不离开本机：不为模型调用、不为遥测、不为『匿名分析』上云；可断网 airgap 运行，面向 NDA/法律/医疗工作流；README 附完整数据流图与逐组件审计、说明删掉了哪些联网组件。

来源：README Safety + How the Data Flows

语音模式、手机控制、本地 MCP

可全程免手操作的语音会话——用你克隆的声音说问题、听回复，双向都在本机；可从手机控制（含 iMessage 媒体管线）；Claude Code 的 MCP 插件生态也能 100% 本地跑。

来源：README What Is This/Control From Your Phone/MCP Servers

技术架构

核心是一个约 1000 行的 Python 代理服务器 proxy/server.py：它在本机用 Apple MLX 框架加载量化后的大模型（走 Metal GPU + 统一内存），对外暴露 Anthropic 兼容 API（端口 4000），Claude Code 直接把 base 指向它即可无感切到本地。服务器做六件事：加载模型（处理 Gemma RotatingKVCache）、说 Anthropic API、翻译多家工具调用格式、实时清理本地模型的思考/停止标记、跨请求复用 prompt cache、以及 code mode 大幅压缩提示词与工具描述。仓库还有 launchers/（启动器）、scripts/、setup.sh/uninstall.sh（环境与 MLX venv）、NarrativeGemma/（自有模型相关）、IMESSAGE_MEDIA_PIPELINE.md（手机/语音媒体管线）、docs/。整体是『MLX 本地模型 + 假扮 Anthropic API 的轻代理 + 让小模型跑通 Claude Code 的一堆适配』，定位是把云端 Claude Code 体验整体搬到 Apple Silicon 本机、完全离线。

来源：README How It Works；tree（proxy/、launchers/、scripts/、setup.sh、NarrativeGemma/）

项目知识图谱

中心为项目本体，内环 = 核心功能模块，外环 = 关键技术依赖；按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python框架Apple MLX（本地推理）+ Anthropic 兼容代理

关键依赖

Apple MLX / Metal GPU本地模型（Qwen 3.5/Llama 3.3/Gemma 4/Herm…Claude Code（前端）MCP（本地）语音克隆（本地 TTS/STT）

基础设施 / 部署

仅 Apple Silicon（M 系列）macOS；完全本地/离线/可 airgap；需约 18-75GB 下载模型；端口 4000

来源：README What You Need/How It Works；GitHub desc

快速上手

前置：Apple Silicon Mac（内存越大能跑越大的模型）+ Claude Code。三步快速开始：跑 setup.sh（或手动建 MLX venv）→ 选一个『拳手』下载模型（一次性约 18-75GB）→ 启动服务器（proxy/server.py，端口 4000）→ 启动 Claude Code 指向本地。之后 Claude Code 完全跑在本机模型上、断网可用。想要语音会话/手机控制/本地 MCP 见对应文档。内存有限选 Gemma 4 31B 或 Hermes 4 14B，追求质量选 Llama 70B / Qwen 122B。

来源：README Quick Start/What You Need

使用场景

适合：①NDA/法律/医疗/政府等不能把代码数据上云、又想用 Claude Code 的人；②注重隐私、想完全离线/断网用 AI 编码的 Apple Silicon 用户；③有较大内存 Mac、想本地跑 70B/122B 模型省订阅费的人；④想要本地语音编码会话或手机控制的人。不适合：非 Apple Silicon（Windows/Linux/Intel Mac）用户；内存不足跑不动大模型的机器；以及对编码质量要求等同前沿云模型的人——本地模型与 Claude/GPT 仍有差距。

来源：README What Is This/What You Need/vs Cloud APIs，结合定位推断

优势与局限

优势

解决真实刚需：让 Claude Code 完全本地离线跑，代码不出本机、无遥测、可 airgap，隐私/合规友好
工程很扎实：约 1000 行代理 + 多工具格式翻译 + 思考标签实时过滤 + code mode 28× 压提示词，让本地小模型也能跑通
多模型可选，按内存选拳手，并复用 prompt cache、显著降 prefill，体验比裸跑顺
附完整数据流审计、说明删掉哪些联网组件，透明度高；MIT、无订阅
额外能力丰富：本地语音会话、手机控制、本地 MCP 生态

局限

仅限 Apple Silicon，且大模型对内存要求高（122B 需很大内存），硬件门槛明显
本地模型的编码质量与速度仍逊于前沿云模型，复杂任务体验有差距
靠假扮 Anthropic API + 大量适配让 Claude Code 跑通，Claude Code 更新可能需要跟进维护
首次需下载 18-75GB 模型，安装与调参（量化/上下文/工具可靠性）有一定门槛
提供 abliterated（去审查）模型上传，使用此类模型的内容安全责任在用户

来源：README What You Need/Benchmarks/Tool-Call Reliability；本地模型的固有局限

总结评价

Claude Code Local 干的是一件对隐私/合规人群很有价值的事：让 Claude Code 完全跑在 Apple Silicon 本机的开源模型上、彻底离线、代码不出机。它最见功力的地方不是『接个本地模型』，而是用约 1000 行代理把多家工具调用格式翻译、思考标签实时过滤、prompt cache 复用、code mode 把提示词砍 28 倍这些活做扎实，让本地中小模型也能真正跑通 Claude Code，还附了透明的数据流审计。要清醒它的边界：只支持 Apple Silicon、大模型吃内存、本地模型质量仍逊于前沿云模型、且靠假扮 API 需随 Claude Code 更新维护。对 NDA/法律/医疗等不能上云、又有大内存 Mac 的人，这是目前把 Claude Code 本地化做得最完整的方案之一。

来源：综合 README 定位/工程/审计、tree 架构、硬件与质量局限的事实判断

透明度声明
本页内容由 AI（大语言模型）基于以下公开材料自动生成：GitHub README、代码目录结构、依赖文件、Release 信息。分析时间: 2026-05-23 00:12. 质量评分: 100/100.

数据来源：README、GitHub API、依赖文件

claude-code-local 是什么？