AI 代码安全评测

AI 写的代码
到底安不安全

CodeGuard 用 132 个真实 CVE 场景 + Docker PoC 动态验证,为 AI 编程工具生成代码做可量化的安全评分,并通过 GitHub Webhook 实时检测 PR 中引入的 CVE 漏洞模式,零误报告警。

申请商业授权
# 评测 gpt-4o 生成代码的安全性
$ codeguard evaluate --model gpt-4o
→ loading 132 CVE instances...
→ building Docker PoC images...
→ running dynamic validation...
 
passed: 87 / 132 (65.9%)
vulnerable: 45 / 132 (34.1%)
 
CWE-89 SQL Injection (12)
CWE-79 XSS (8)
CWE-22 Path Traversal (6)
 
Final Score: 65.9 / 100

两大核心能力

评测 + 防护,覆盖 AI 编程工具的安全闭环

产品 A

AI 编程工具安全评测

对 GPT-4o、Claude、Gemini、Copilot 等 AI 编程工具生成的代码做安全评分。通过 132 个真实 CVE 场景 + Docker PoC 动态验证,输出可量化、可复现、可对比的安全报告。

  • 严重性加权评分,全失败不再得满分
  • AST 依赖分析检索,6 种语言结构化
  • HTML 对比报告,模型间横向比较
  • FastAPI 评测服务 + Swagger 文档
产品 B

CVE 回归检测

开发者(或 AI 工具)提交 PR 时,自动检测是否引入已知 CVE 漏洞模式。每条告警都有 Docker PoC 动态验证,零误报。结果自动回写为 commit status + PR 评论。

  • GitHub Webhook 集成,秒级触发
  • CVE 多维索引(repo / 语言 / CWE / 文件)
  • Docker 镜像缓存 + 增量扫描
  • PR 评论附修复建议

核心特性

真实漏洞、动态验证、零误报是我们的底线

🛠

Docker PoC 动态验证

每个 CVE 实例都配有专用 Docker 镜像 + 可执行的 PoC exploit + 功能测试用例。不是静态扫描,是真正跑起来看漏洞是否存在。

🔬

AST 依赖分析检索

在 BM25 全文检索基础上融入 AST 代码结构分析,支持 6 种语言(C/C++/Java/Python/PHP/JS)的精准上下文补全。

📊

严重性加权评分

修复了原版评分漏洞(全失败得满分的 BUG),引入严重性加权:Critical 漏洞的权重远高于 Low,让分数真正反映风险。

🤖

多 Agent 适配

支持 Claude Code、Gemini CLI、OpenAI Codex、Aider 等主流 Agent 代码生成框架,统一 AgentMetrics 指标追踪行为。

💻

GitHub Webhook 集成

配置 Webhook 指向 `POST /webhook/github`,PR 提交自动触发扫描。结果回写 commit status + PR 评论,开发者零感知接入。

镜像缓存 + 增量扫描

Docker 镜像首次编译后缓存复用,增量扫描基于漏洞文件 mtime 判断,单次 PR 扫描从分钟级降到秒级。

评测数据集

132 个真实 CVE,来自 51 个 GitHub 真实项目

132
CVE 实例
51
真实 GitHub 项目
28
CWE 类型
7
编程语言

覆盖范围

语言分布:C(57) PHP(42) Java(16) Python(13) TS(2) JS(1) C++(1)
严重性:Critical(9) High(66) Medium(56) Low(1)
CWE 覆盖:OWASP Top 10 + CWE Top 25
验证方式:Docker 镜像 + PoC exploit + 功能测试

适用场景

给 AI 编程时代的代码安全托底

🏢 企业选型 AI 编程工具

采购 AI 编程助手前,用 CodeGuard 对候选工具做横向安全评测,数据驱动决策。别只看代码质量,还要看安全底线。

💼 AI 厂商模型迭代

模型迭代时持续跑安全评测,确保新版本不在安全性上回退。每次训练后自动出对比报告,量化安全能力变化。

🛡 CI/CD 安全门禁

接入 GitHub Webhook,PR 提交自动扫描引入的 CVE 模式。零误报意味着可以作为 CI 阻断条件,真正起到安全门禁作用。

🔍 安全研究与审计

安全研究团队可用作标准化基准,对比不同模型、不同 Prompt 策略、不同上下文的安全影响。132 个场景可复现、可扩展。

给 AI 代码安上一道锁

想在企业内部署 AI 代码安全评测平台,或把 CVE 回归检测接入 GitHub 工作流?欢迎联系我们获取商业授权与部署方案。

联系我们

CodeGuard 基于 Tencent/AICGSecEval (A.S.E) 开源框架深度增强,遵循 Apache-2.0 协议。感谢腾讯安全平台部及合作高校(复旦、北大、上交、清华、浙大)的原始数据集与研究贡献。

探索更多产品