LLM Cost Optimization

IntelligentRouting
让 LLM 调用省 30-60%

透明代理你的 LLM API 请求,自动去重冗余上下文、裁剪 RAG 检索、压缩对话历史——只改一行代码,立即省钱。

工作原理

只改一行代码,IR 透明接管你的 LLM 请求

💻

你的应用

发送 Chat Completion 请求

IR 网关

自动优化上下文

🤖

LLM API

更少 token,同样效果

一行代码接入

完全兼容 OpenAI SDK,无需修改业务逻辑

❌ 原来 — 直连 OpenAI
client = OpenAI(
  api_key="sk-xxx",
  base_url="https://api.openai.com/v1"
)
✅ 接入 IR — 自动优化
client = OpenAI(
  api_key="ir_live_xxx",
  base_url="https://ir.ngjoo.com/v1"
)
# 其余代码不变,效果一样,成本更低

核心能力

全方位降本增效,不影响业务质量

🔎

上下文去重

基于 Jaccard 相似度自动检测并去除 messages 中的重复文本片段,尤其适用于 RAG 场景中检索到的重复文档。

RAG 检索裁剪

智能裁剪检索结果,只保留与 query 最相关的 chunk,减少无关上下文对模型推理的干扰和 token 浪费。

💬

历史预算控制

对多轮对话设置 token 上限,超出时自动截断或摘要早期对话,避免长对话的 token 爆炸式增长。

📈

实时成本监控

Dashboard 实时展示 token 用量、费用趋势、模型分布,每笔请求的成本精确到小数点后六位。

🔒

PII 脱敏

自动检测并脱敏请求中的手机号、邮箱、身份证等敏感信息,记录审计轨迹,满足数据合规要求。

🛠

策略版本管理

每次配置修改自动创建新版本,支持一键回滚。Quality Check 评估新策略效果后再上线,安全可控。

准备好降低 LLM 成本了吗?

一行代码接入,立即看到效果。