透明代理你的 LLM API 请求,自动去重冗余上下文、裁剪 RAG 检索、压缩对话历史——只改一行代码,立即省钱。
只改一行代码,IR 透明接管你的 LLM 请求
发送 Chat Completion 请求
自动优化上下文
更少 token,同样效果
完全兼容 OpenAI SDK,无需修改业务逻辑
client = OpenAI( api_key="sk-xxx", base_url="https://api.openai.com/v1" )
client = OpenAI( api_key="ir_live_xxx", base_url="https://ir.ngjoo.com/v1" ) # 其余代码不变,效果一样,成本更低
全方位降本增效,不影响业务质量
基于 Jaccard 相似度自动检测并去除 messages 中的重复文本片段,尤其适用于 RAG 场景中检索到的重复文档。
智能裁剪检索结果,只保留与 query 最相关的 chunk,减少无关上下文对模型推理的干扰和 token 浪费。
对多轮对话设置 token 上限,超出时自动截断或摘要早期对话,避免长对话的 token 爆炸式增长。
Dashboard 实时展示 token 用量、费用趋势、模型分布,每笔请求的成本精确到小数点后六位。
自动检测并脱敏请求中的手机号、邮箱、身份证等敏感信息,记录审计轨迹,满足数据合规要求。
每次配置修改自动创建新版本,支持一键回滚。Quality Check 评估新策略效果后再上线,安全可控。
一行代码接入,立即看到效果。