AI 代码安全评测

AI 写的代码
到底安不安全

CodeGuard 用 132 个真实 CVE 场景 + Docker PoC 动态验证，为 AI 编程工具生成代码做可量化的安全评分，并通过 GitHub Webhook 实时检测 PR 中引入的 CVE 漏洞模式，零误报告警。

申请商业授权

# 评测 gpt-4o 生成代码的安全性

$ codeguard evaluate --model gpt-4o

→ loading 132 CVE instances...

→ building Docker PoC images...

→ running dynamic validation...

✓ passed: 87 / 132 (65.9%)

✗ vulnerable: 45 / 132 (34.1%)

CWE-89 SQL Injection (12)

CWE-79 XSS (8)

CWE-22 Path Traversal (6)

Final Score: 65.9 / 100

两大核心能力

评测 + 防护，覆盖 AI 编程工具的安全闭环

产品 A

AI 编程工具安全评测

对 GPT-4o、Claude、Gemini、Copilot 等 AI 编程工具生成的代码做安全评分。通过 132 个真实 CVE 场景 + Docker PoC 动态验证，输出可量化、可复现、可对比的安全报告。

严重性加权评分，全失败不再得满分
AST 依赖分析检索，6 种语言结构化
HTML 对比报告，模型间横向比较
FastAPI 评测服务 + Swagger 文档

产品 B

CVE 回归检测

开发者（或 AI 工具）提交 PR 时，自动检测是否引入已知 CVE 漏洞模式。每条告警都有 Docker PoC 动态验证，零误报。结果自动回写为 commit status + PR 评论。

GitHub Webhook 集成，秒级触发
CVE 多维索引（repo / 语言 / CWE / 文件）
Docker 镜像缓存 + 增量扫描
PR 评论附修复建议

核心特性

真实漏洞、动态验证、零误报是我们的底线

🛠

Docker PoC 动态验证

每个 CVE 实例都配有专用 Docker 镜像 + 可执行的 PoC exploit + 功能测试用例。不是静态扫描，是真正跑起来看漏洞是否存在。

🔬

AST 依赖分析检索

在 BM25 全文检索基础上融入 AST 代码结构分析，支持 6 种语言（C/C++/Java/Python/PHP/JS）的精准上下文补全。

📊

严重性加权评分

修复了原版评分漏洞（全失败得满分的 BUG），引入严重性加权：Critical 漏洞的权重远高于 Low，让分数真正反映风险。

🤖

多 Agent 适配

支持 Claude Code、Gemini CLI、OpenAI Codex、Aider 等主流 Agent 代码生成框架，统一 AgentMetrics 指标追踪行为。

💻

GitHub Webhook 集成

配置 Webhook 指向 `POST /webhook/github`，PR 提交自动触发扫描。结果回写 commit status + PR 评论，开发者零感知接入。

⚡

镜像缓存 + 增量扫描

Docker 镜像首次编译后缓存复用，增量扫描基于漏洞文件 mtime 判断，单次 PR 扫描从分钟级降到秒级。

评测数据集

132 个真实 CVE，来自 51 个 GitHub 真实项目

132

CVE 实例

真实 GitHub 项目

CWE 类型

编程语言

覆盖范围

语言分布：C(57) PHP(42) Java(16) Python(13) TS(2) JS(1) C++(1)

严重性：Critical(9) High(66) Medium(56) Low(1)

CWE 覆盖：OWASP Top 10 + CWE Top 25

验证方式：Docker 镜像 + PoC exploit + 功能测试

适用场景

给 AI 编程时代的代码安全托底

🏢 企业选型 AI 编程工具

采购 AI 编程助手前，用 CodeGuard 对候选工具做横向安全评测，数据驱动决策。别只看代码质量，还要看安全底线。

💼 AI 厂商模型迭代

模型迭代时持续跑安全评测，确保新版本不在安全性上回退。每次训练后自动出对比报告，量化安全能力变化。

🛡 CI/CD 安全门禁

接入 GitHub Webhook，PR 提交自动扫描引入的 CVE 模式。零误报意味着可以作为 CI 阻断条件，真正起到安全门禁作用。

🔍 安全研究与审计

安全研究团队可用作标准化基准，对比不同模型、不同 Prompt 策略、不同上下文的安全影响。132 个场景可复现、可扩展。

给 AI 代码安上一道锁

想在企业内部署 AI 代码安全评测平台，或把 CVE 回归检测接入 GitHub 工作流？欢迎联系我们获取商业授权与部署方案。

联系我们

CodeGuard 基于 Tencent/AICGSecEval (A.S.E) 开源框架深度增强，遵循 Apache-2.0 协议。感谢腾讯安全平台部及合作高校（复旦、北大、上交、清华、浙大）的原始数据集与研究贡献。

AI 写的代码
到底安不安全

两大核心能力

AI 编程工具安全评测

CVE 回归检测

核心特性

Docker PoC 动态验证

AST 依赖分析检索

严重性加权评分

多 Agent 适配

GitHub Webhook 集成

镜像缓存 + 增量扫描

评测数据集

覆盖范围

适用场景

🏢 企业选型 AI 编程工具

💼 AI 厂商模型迭代

🛡 CI/CD 安全门禁

🔍 安全研究与审计

给 AI 代码安上一道锁

探索更多产品

IntelligentRouting

OpenContext

AIContracts

AI 写的代码到底安不安全

两大核心能力

AI 编程工具安全评测

CVE 回归检测

核心特性

Docker PoC 动态验证

AST 依赖分析检索

严重性加权评分

多 Agent 适配

GitHub Webhook 集成

镜像缓存 + 增量扫描

评测数据集

覆盖范围

适用场景

🏢 企业选型 AI 编程工具

💼 AI 厂商模型迭代

🛡 CI/CD 安全门禁

🔍 安全研究与审计

给 AI 代码安上一道锁

探索更多产品

IntelligentRouting

OpenContext

AIContracts

AI 写的代码
到底安不安全