LLM Cost Optimization

用 IntelligentRouting
让 LLM 调用省 30-60%

透明代理你的 LLM API 请求，自动去重冗余上下文、裁剪 RAG 检索、压缩对话历史——只改一行代码，立即省钱。

打开控制台 ↗ 了解原理

工作原理

只改一行代码，IR 透明接管你的 LLM 请求

💻

你的应用

发送 Chat Completion 请求

→

⚡

IR 网关

自动优化上下文

→

🤖

LLM API

更少 token，同样效果

一行代码接入

完全兼容 OpenAI SDK，无需修改业务逻辑

❌ 原来 — 直连 OpenAI

client = OpenAI(
  api_key="sk-xxx",
  base_url="https://api.openai.com/v1"
)

✅ 接入 IR — 自动优化

client = OpenAI(
  api_key="ir_live_xxx",
  base_url="https://ir.ngjoo.com/v1"
)
# 其余代码不变，效果一样，成本更低

核心能力

全方位降本增效，不影响业务质量

🔎

上下文去重

基于 Jaccard 相似度自动检测并去除 messages 中的重复文本片段，尤其适用于 RAG 场景中检索到的重复文档。

✂

RAG 检索裁剪

智能裁剪检索结果，只保留与 query 最相关的 chunk，减少无关上下文对模型推理的干扰和 token 浪费。

💬

历史预算控制

对多轮对话设置 token 上限，超出时自动截断或摘要早期对话，避免长对话的 token 爆炸式增长。

📈

实时成本监控

Dashboard 实时展示 token 用量、费用趋势、模型分布，每笔请求的成本精确到小数点后六位。

🔒

PII 脱敏

自动检测并脱敏请求中的手机号、邮箱、身份证等敏感信息，记录审计轨迹，满足数据合规要求。

🛠

策略版本管理

每次配置修改自动创建新版本，支持一键回滚。Quality Check 评估新策略效果后再上线，安全可控。

用 IntelligentRouting让 LLM 调用省 30-60%