hindsight 是什么?

Hindsight 是 Vectorize 推出的 AI 代理「记忆系统」。它与大多数只做对话历史召回的代理记忆方案不同——目标是让代理「学习」而不仅仅是「记住」。Hindsight 用类生物(biomimetic)的数据结构来组织记忆,把信息分为「世界知识」(关于世界的事实)、「经验」(代理自身的经历)和「心智模型」(通过反思原始记忆与经验形成的、对世界的学习性理解),并对外提供 Retain(存入)、Recall(检索)、Reflect(反思生成新洞见)三个核心操作。项目附有论文(arXiv 2512.12818),代码以 MIT 许可开源,约 14,330 stars。

⭐ 14,779 Stars 🍴 836 Forks Python 作者: vectorize-io
来源:README.md(What is Hindsight、Architecture & Operations 段落);GitHub 仓库元数据(stars=14330、license=MIT、homepage) 查看 GitHub 仓库 →

为什么值得关注

「代理长期记忆」是 2026 年 AI Agent 领域的关键瓶颈之一:RAG 和知识图谱在长期对话/任务记忆上各有短板。Hindsight 主打在 LongMemEval 这一长期记忆基准上取得当前最优表现,且声称该成绩已由弗吉尼亚理工 Sanghani 中心和《华盛顿邮报》的研究协作者独立复现(其它厂商分数为自报)。项目同时强调已在多家世界 500 强企业和一批 AI 创业公司的生产环境中使用,并提供论文、Cookbook、云服务和多语言 SDK,工程完备度高,因而获得较高关注。

来源:README.md(Memory Performance & Accuracy 段落,含独立复现与生产使用说明);仓库 topics(ai-memory、agents)

核心功能

三操作记忆接口

Retain 存入要记住的信息、Recall 检索相关记忆、Reflect 对已有记忆与经验做反思以生成新观察和洞见。

来源:README.md(Architecture & Operations:Retain/Recall/Reflect)
类生物记忆结构

把记忆分为世界知识、经验、心智模型三层,用实体/关系/时间序列加稀疏稠密向量表示,区别于单纯向量检索或知识图谱。

来源:README.md(Architecture & Operations:World/Experiences/Mental Models)
两行代码接入(LLM Wrapper)

最简单的接入方式是用 LLM Wrapper 替换现有 LLM 客户端,之后在 LLM 调用过程中自动存取记忆;需要更精细控制时可用 SDK 或直接 HTTP API。

来源:README.md(Adding Hindsight to Your AI Agents 段落)
多 LLM 提供商与多 SDK

LLM 提供商支持 openai/anthropic/gemini/groq/ollama/lmstudio/minimax;客户端提供 Python 与 Node/TypeScript 两套 SDK,另有可内嵌运行、无需独立服务的 hindsight-all(Python embedded)。

来源:README.md(Quick Start 的 Docker LLM_PROVIDER 选项、Client、Python Embedded 段落)
按用户隔离的记忆

在 retain 时用自定义 metadata 给记忆打标,便于按用户隔离,召回时按 metadata 过滤,适合个性化聊天机器人等场景。

来源:README.md(Use Cases → Per-User Memories 段落)

技术架构

Hindsight 的记忆按「记忆库」(bank)组织。信息存入时被分流到「世界事实」或「经验」两条记忆通路,再表示为实体、关系和时间序列的组合,并配合稀疏/稠密向量表示以辅助召回;在此之上通过反思形成「心智模型」。服务端核心是 Python 的 hindsight-api(仓库内有 hindsight-api-slim 包),数据持久化基于 PostgreSQL(用 Alembic 管理 schema 迁移,可见实体三元组索引、向量索引、记忆链接等迁移脚本),企业部署还支持 Oracle AI Database。部署形态丰富:单机 Docker 镜像、docker-compose(外置 PG、AlloyDB、TimescaleDB、VectorChord、S3 文件存储、nginx 等多种组合)。客户端有 Python(hindsight-client)和 Node/TypeScript(@vectorize-io/hindsight-client)两套 SDK,以及面向编码代理的 MCP 集成。

来源:README.md(Architecture & Operations、Quick Start 的 Docker/Client 段落);git tree(hindsight-api-slim/、alembic/versions/、docker/docker-compose/ 各子目录)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) PostgreSQL(向量+全文检索,Alembic 迁移)PostgreSQL(向… 可选 AlloyDB/TimescaleDB/VectorChord/Oracle AI Database可选 AlloyDB/T… litellm(多 LLM 接入)litellm(多 LL… S3(可选文件存储)S3(可选文件存储… 三操作记忆接口 类生物记忆结构 两行代码接入(LLM Wrapper)两行代码接入(LLM Wra… 多 LLM 提供商与多 SDK 按用户隔离的记忆 hindsight 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Python(服务端主体),TypeScript/Node(客户端)框架REST API + 记忆引擎;客户端 SDK
PostgreSQL(向量+全文检索,Alembic 迁移)可选 AlloyDB/TimescaleDB/VectorChord/O…litellm(多 LLM 接入)S3(可选文件存储)
GHCR Docker 镜像、docker-compose 多种部署组合、GitHub Actions(测试/发布/镜像签名/性能测试)
来源:README.md(Quick Start、storage 文档引用、LLM provider 列表);git tree(alembic、docker/docker-compose/、.github/workflows/、PyPI/NPM 包名);release notes(litellm、urllib3 等依赖)

快速上手

推荐用 Docker:设置 OPENAI_API_KEY 后,docker run 拉取 ghcr.io/vectorize-io/hindsight:latest,映射 8888(API)和 9999(UI)端口,并挂载本地目录持久化。可通过 HINDSIGHT_API_LLM_PROVIDER 切换 LLM 提供商。需要外置数据库时用 docker/docker-compose 下的 compose 文件(设置 HINDSIGHT_DB_PASSWORD 后 docker compose up)。接入应用时安装客户端:pip install hindsight-client 或 npm install @vectorize-io/hindsight-client,用 Hindsight(base_url=...) 连接后调用 retain/recall/reflect。也可用 pip install hindsight-all 以内嵌方式启动 HindsightServer,无需单独运行服务。
来源:README.md(Quick Start:Docker、external PostgreSQL、Client、Python Embedded 段落)

使用场景

Hindsight 面向需要长期学习能力的对话型和任务型 AI 代理。最适合那些需要混合多种能力的场景——例如需要处理开放式任务、根据用户反馈调整行为、学习完成复杂工作以接近人类水平的「AI 员工」。较简单的用法包括给聊天机器人做按用户隔离的个性化记忆与历史。官方也提醒:对于 n8n 等简单 AI 工作流,Hindsight 可能属于「杀鸡用牛刀」,更适合对长期记忆有真实需求的代理。

来源:README.md(Use Cases 段落,含适用与不适用提示)

优势与局限

优势

  • 在 LongMemEval 长期记忆基准上声称当前最优,且有第三方独立复现
  • 记忆模型设计有想法(世界/经验/心智模型三层 + 反思),不止于向量召回
  • 接入门槛低(LLM Wrapper 两行代码),同时保留 SDK/HTTP 的精细控制
  • 部署与存储后端选择丰富(多种数据库、Docker/compose、可内嵌),工程与文档完善

局限

  • 部分对比基准分数由各厂商自报,跨方案横评需谨慎看待
  • 对简单工作流可能过重,官方自己也提示并非所有场景都需要
  • 完整能力依赖 PostgreSQL 等基础设施,运维有一定成本
  • 存在配套的 Hindsight Cloud 商业服务,开源版与云版的边界需使用者自行评估
来源:README.md(Memory Performance & Accuracy 的自报说明、Use Cases 的适用提示、Hindsight Cloud 链接)

最新版本

最新发布为 v0.6.2(2026-05-14)。该版本以集成修复、文档完善和依赖安全更新为主:多处修复编码代理集成(如 claude-code 的 get_page 取 content、MCP 把 recall 的 max_results 改名为 max_tokens、可配置 MCP 请求超时);修复 agent-sdk 的参数命名与分页取数;修复 CLI/control-plane 让 retain 的事件日期/时间戳真正传到 API,并新增 --timestamp 文档;修复 mental_models.subtype 的迁移;以及成批升级 npm 与 pip 的高危/严重依赖(litellm 升到 ≥1.83.14、urllib3 升到 2.7.0 等)。整体是一个偏稳定性与安全的小版本。

来源:GitHub releases/latest(v0.6.2 What's Changed 列表)

总结评价

Hindsight 在「代理记忆」这一正成为刚需的方向上给出了较有体系的方案:用分层记忆加反思机制,试图让代理真正从交互中学习,而不仅是召回历史。它的基准成绩有第三方复现背书、工程化和部署选项都比较成熟,对要做长期记忆型 AI 代理(尤其是 AI 员工类应用)的团队值得认真评估。需要注意的是横评分数的口径差异、对轻量场景可能偏重,以及它同时存在商业云服务——选型时应结合自身对长期记忆的真实需求和运维能力来判断。

来源:综合 README.md(基准与适用性说明)、release notes 与 git tree 的工程结构
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-24 11:57. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件