透明代理你的 LLM API 请求,自动去重冗余上下文、裁剪 RAG 检索、压缩对话历史——只改一行代码,立即省钱。
只改一行代码,IR 透明接管你的 LLM 请求
发送 Chat Completion 请求
自动优化上下文
更少 token,同样效果
完全兼容 OpenAI SDK,无需修改业务逻辑
client = OpenAI( api_key="sk-xxx", base_url="https://api.openai.com/v1" )
client = OpenAI( api_key="ir_live_xxx", base_url="https://ir.ngjoo.com/v1" ) # 其余代码不变,效果一样,成本更低
全方位降本增效,不影响业务质量
基于 Jaccard 相似度自动检测并去除 messages 中的重复文本片段,尤其适用于 RAG 场景中检索到的重复文档。
智能裁剪检索结果,只保留与 query 最相关的 chunk,减少无关上下文对模型推理的干扰和 token 浪费。
对多轮对话设置 token 上限,超出时自动截断或摘要早期对话,避免长对话的 token 爆炸式增长。
Dashboard 实时展示 token 用量、费用趋势、模型分布,每笔请求的成本精确到小数点后六位。
自动检测并脱敏请求中的手机号、邮箱、身份证等敏感信息,记录审计轨迹,满足数据合规要求。
每次配置修改自动创建新版本,支持一键回滚。Quality Check 评估新策略效果后再上线,安全可控。
一行代码接入,立即看到效果。
自动采集 HuggingFace 热门论文,LLM 智能分析生成摘要与分类,每日更新 AI 前沿动态。
上传 PDF 自动提取关键信息并生成思维导图,支持论文精读与技术文档速览。
17 个 AI Agent 协同工作,覆盖 HR、财务、IT 运维等场景,自然语言驱动办公流程。
专为 AI Agent 设计的层级知识数据库,L0/L1/L2 三层摘要,MCP 集成与 Session 记忆。
B 站视频导入和本地上传,AI 语音转录 + 智能问答 + 自动笔记,让视频学习更高效。