ollama 是什么?

Ollama(ollama/ollama)是一个让你在本地快速运行开源大模型的工具:一条命令即可下载并运行 Llama、Gemma、Qwen、DeepSeek、Mistral、GLM、gpt-oss 等众多模型,并提供本地 REST API(默认 :11434)与 Python/JS 客户端,方便把本地模型接入应用或编码代理(Claude Code、Codex、Copilot、OpenCode 等)。它跨 macOS/Windows/Linux/Docker,底层基于 llama.cpp。MIT 许可,约 172,176 stars,主语言 Go,官网 ollama.com,是本地跑 LLM 的事实标准工具之一。

⭐ 167,340 Stars 🍴 15,355 Forks Go MIT 作者: ollama
来源:README.md(描述、Download、Get started、REST API、Supported backends);GitHub 仓库元数据(stars=172176、language=Go、license=MIT、topics ollama/llm) 查看 GitHub 仓库 →

为什么值得关注

本地运行大模型有隐私、离线、成本与可控等优势,但配置门槛高。Ollama 把模型下载、量化、运行与 API 服务封装成极简体验(ollama run ),模型库丰富、跨平台、有官方 Python/JS 客户端与各编码代理集成,几乎成为本地 LLM 的入门首选,star 极高、生态庞大。需说明:本地推理性能与可跑的模型大小取决于硬件(显存/内存);它基于 llama.cpp,能力随上游与模型生态演进。截至数据采集约 172,176 stars,维护非常活跃。

来源:README.md(描述、Get started、Supported backends);GitHub 仓库元数据(stars=172176、pushed_at 2026-05)

核心功能

一键本地运行模型

`ollama run ` 即可下载并本地运行 Llama/Gemma/Qwen/DeepSeek 等众多开源模型。

来源:README.md(Get started、Chat with a model)
本地 REST API 与客户端

提供本地 REST API(:11434)与官方 Python/JS 客户端,便于接入应用,支持流式。

来源:README.md(REST API、Python、JavaScript)
编码代理/助手集成

可 launch 接入 Claude Code、Codex、Copilot CLI、OpenCode、OpenClaw 等。

来源:README.md(Coding、AI assistant)
跨平台与丰富模型库

支持 macOS/Windows/Linux/Docker,模型库丰富并可导入自定义模型,底层用 llama.cpp。

来源:README.md(Download、Supported backends、library)

技术架构

Ollama 用 Go 实现,作为本地模型运行时 + 服务:底层以 llama.cpp 为推理后端,负责拉取、量化与加载模型并以服务形式常驻(默认 http://localhost:11434)。用户通过 CLI(ollama run/launch 等)运行模型或启动与编码代理/助手的集成;应用可经 REST API(如 /api/chat)或官方 Python(pip install ollama)、JS(npm i ollama)客户端调用,支持流式。模型来自 ollama.com/library,也支持导入自定义模型。跨 macOS/Windows/Linux 与 Docker 镜像 ollama/ollama。

来源:README.md(Download、Get started、REST API、Python/JS、Supported backends);GitHub 仓库元数据(language=Go)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) llama.cpp(推理后端)llama.cpp(推理… 本地 REST API(:11434)本地 REST API( ollama-python / ollama-js 客户端ollama-python… 一键本地运行模型 本地 REST API 与客户端 编码代理/助手集成 跨平台与丰富模型库 ollama 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Go框架本地大模型运行时与服务(基于 llama.cpp)
llama.cpp(推理后端)本地 REST API(ollama-python / ollama-js 客户端
macOS/Windows/Linux/Docker;模型库 ollama.com/library;MIT
来源:README.md(Download、Supported backends、Libraries);GitHub 仓库元数据(language=Go)

快速上手

安装:macOS/Linux 用官网安装脚本或下载安装包,Windows 用安装器,或用 Docker 镜像 ollama/ollama。安装后 `ollama run gemma3`(或其他模型)即可下载并对话;应用可调用本地 REST API(curl http://localhost:11434/api/chat ...)或用 `pip install ollama` / `npm i ollama` 客户端。要接编码代理可 `ollama launch claude`(或 codex/copilot 等)。注意:从网络拉取的安装脚本(curl|sh、irm|iex)建议先了解来源;可跑模型大小取决于本机显存/内存。详见 docs.ollama.com。
来源:README.md(Download、Get started、REST API、Python/JS、Coding)

使用场景

适合想在本地用开源大模型的开发者与用户:隐私优先、离线、低成本地跑 LLM 做对话、补全与应用后端;用本地 REST API/客户端把模型接入自有应用,或作为 Claude Code/Codex 等编码代理的本地模型后端;也适合做模型试验、原型与边缘/内网部署。可跑的模型规模与速度取决于本机硬件,大模型需足够显存/内存。

来源:README.md(描述、Get started、Coding、REST API)

优势与局限

优势

  • 一键本地运行众多开源模型,体验极简、模型库丰富
  • 本地 REST API + Python/JS 客户端,易接入应用与编码代理
  • 跨平台(macOS/Windows/Linux/Docker),隐私/离线友好
  • MIT 开源、生态庞大、维护非常活跃,本地 LLM 事实标准之一

局限

  • 可跑模型大小与速度取决于本机显存/内存
  • 基于 llama.cpp,能力随上游与模型生态演进
  • 安装脚本为网络拉取执行,建议确认来源
  • 大模型本地推理对硬件要求高,质量受量化影响
来源:README.md(Download、Supported backends、Get started)

最新版本

本页未列固定版本号;Ollama 持续发布(官网与 GitHub Releases),不断新增模型支持(如 Kimi-K2.5、GLM-5、MiniMax、DeepSeek、gpt-oss、Qwen、Gemma 等)与编码代理集成。仓库最后更新约在 2026 年 5 月,迭代非常活跃。

来源:README.md(描述、Coding);GitHub pushed_at

总结评价

Ollama 是本地运行开源大模型的事实标准工具:一条命令下载并运行 Llama/Gemma/Qwen/DeepSeek 等众多模型,提供本地 REST API 与 Python/JS 客户端、跨平台支持与编码代理集成,底层基于 llama.cpp,体验极简、模型库丰富、隐私/离线友好、生态庞大、MIT 开源、维护极活跃,对想在本地用 LLM 的开发者与用户几乎是首选。要清楚可跑模型大小与速度取决于本机显存/内存、能力随 llama.cpp 与模型生态演进、安装脚本为网络拉取需确认来源、大模型本地推理吃硬件且受量化影响。作为本地 LLM 运行的基础设施,简单、强大、影响力极大。

来源:综合 README.md 的定位、运行/API 能力、跨平台与生态
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-24 23:47. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件