cua 是什么?

Cua(trycua)是面向「计算机使用智能体」(Computer-Use Agents)的开源基础设施:提供沙箱、SDK 和基准,用于训练和评估能控制完整桌面(macOS/Linux/Windows/Android)的 AI 智能体——让智能体看屏幕、点按钮、打字、完成任务。它含两部分:Cua Driver(在 macOS 后台驱动原生应用,不抢光标/焦点/桌面,连 Chromium 网页内容和 Blender/Figma 等画布工具也能操作,每次会话录成可回放轨迹);以及 Agent-Ready Sandboxes(一套 API 跨任意 OS/运行时,云端 cua.ai 或本地 QEMU 皆可)。许可为 MIT,约 17,038 stars。

⭐ 15,518 Stars 🍴 958 Forks HTML MIT 作者: trycua
来源:README.md(描述、Cua Driver、Agent-Ready Sandboxes);GitHub 仓库元数据(stars=17038、license=MIT) 查看 GitHub 仓库 →

为什么值得关注

「计算机使用智能体」(让 AI 像人一样操作桌面/应用)是 Operator/Manus 之后的热点方向,而要训练/评估这类智能体需要可控的沙箱与统一 SDK。Cua 提供跨 OS(含 macOS/Windows/Android)的一致沙箱 API、可后台驱动 macOS 原生应用且不抢焦点、还录可回放轨迹、并有基准,基础设施完整,因而受关注。截至数据采集约 17,038 stars。

来源:README.md(描述、Cua Driver、Agent-Ready Sandboxes);GitHub 仓库元数据(stars=17038、topics 含 computer-use/operator/manus)

核心功能

后台计算机使用(Cua Driver)

在 macOS 后台驱动原生应用(含 Chromium/画布工具),不抢光标/焦点/Space;经 CLI 或 MCP 使用,会话录成可回放轨迹。

来源:README.md(Cua Driver)
跨 OS 统一沙箱 API

一套 API 跨 Linux/macOS/Windows/Android 创建沙箱,做 shell、截图、鼠标/键盘/多点触控等操作;云端或本地 QEMU 皆可。

来源:README.md(Agent-Ready Sandboxes 代码与矩阵)
训练/评估基础设施

提供沙箱、SDK 与基准,用于训练和评估能控制完整桌面的计算机使用智能体。

来源:README.md(描述)
云/本地与多镜像

支持云端 cua.ai 与本地 QEMU,覆盖 Linux 容器/VM、macOS、Windows、Android,本地还支持自带镜像(.qcow2/.iso)。

来源:README.md(Agent-Ready Sandboxes 矩阵)

技术架构

Cua 由两大块组成:① Cua Driver——在 macOS 后台驱动任意原生应用,智能体点击/输入/校验时不抢光标、焦点或 Space,连非无障碍(AX)表面(Chromium 网页、Blender/Figma/DAW/游戏引擎等画布)也能操作;可经 CLI 或 MCP server(Claude Code/Cursor 等)使用,每次会话录成可回放轨迹;另有跨平台 Rust 移植(cua-driver-rs,实验)。② Agent-Ready Sandboxes——pip install cua,用同一套 API(无论 OS/运行时)创建沙箱:Sandbox.ephemeral(Image.linux()/.macos()/.windows()/.android()),再 shell.run、screenshot、mouse.click、keyboard.type、mobile.gesture 等操作;支持云端(cua.ai)与本地 QEMU 运行,覆盖 Linux 容器/VM、macOS、Windows、Android 及自带镜像(BYOI)。需 Python 3.11+。

来源:README.md(Cua Driver、Agent-Ready Sandboxes 的代码与矩阵)

项目知识图谱

知识图谱:项目核心节点(中心)+ 核心功能(内环六边形)+ 关键技术依赖(外环 chip) QEMU / 虚拟化框架(本地沙箱)QEMU / 虚拟化框… MCP(Claude Code/Cursor 等)MCP(Claude Co… Apple 虚拟化/容器化Apple 虚拟化/容… 后台计算机使用(Cua Driver)后台计算机使用(Cua D… 跨 OS 统一沙箱 API 训练/评估基础设施 云/本地与多镜像 cua 项目本体 核心功能 关键依赖

中心为项目本体,内环 = 核心功能模块,外环 = 关键技术依赖;按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Swift(macOS Driver)+ Python(SDK)+ Rust(实验移植)框架计算机使用智能体基础设施(Driver + Sandbox SDK)
QEMU / 虚拟化框架(本地沙箱)MCP(Claude Code/Cursor 等)Apple 虚拟化/容器化
云端 cua.ai 或本地 QEMU;Python 3.11+;CLI/MCP/SDK
来源:README.md(Cua Driver、Agent-Ready Sandboxes);GitHub 仓库 topics(swift、virtualization、qemu 隐含)

快速上手

Cua Driver(macOS 后台计算机使用):用 README 的 install.sh 一键安装(想试跨平台 Rust 移植加 -- --experimental-rust),可经 CLI 或 MCP server 在 Claude Code/Cursor 等里使用,工具参考与 Claude Code 技能随包提供。Agent-Ready Sandboxes:pip install cua(需 Python 3.11+),用统一 API 起沙箱——async with Sandbox.ephemeral(Image.linux()) as sb: 后 sb.shell.run/screenshot/mouse.click/keyboard.type 等;可选云端 cua.ai 或本地 QEMU,覆盖 Linux/macOS/Windows/Android。注意:让智能体控制桌面/应用应在你授权的环境中、并注意权限与安全边界。
来源:README.md(Cua Driver install、Agent-Ready Sandboxes 代码)

使用场景

适合研究和构建「计算机使用/桌面自动化智能体」的团队:在跨 OS 沙箱里让智能体看屏幕、操作应用、完成任务,并用基准训练/评估;用 Cua Driver 在 macOS 后台驱动原生应用而不打断你工作、录轨迹用于复现/调试;或经 MCP 接入 Claude Code/Cursor。适合 Operator/Manus 式智能体的开发、评测与数据采集。让智能体控制桌面需在授权环境与安全边界内进行。

来源:README.md(描述、Cua Driver、Agent-Ready Sandboxes)

优势与局限

优势

  • 面向计算机使用智能体的完整基础设施:沙箱 + SDK + 基准
  • 跨 OS 统一 API(Linux/macOS/Windows/Android),云端或本地 QEMU
  • Cua Driver 后台驱动 macOS 应用不抢焦点、连画布工具也能操作、录可回放轨迹
  • 经 CLI/MCP 接入 Claude Code/Cursor,MIT 开源

局限

  • 云端用量按 cua.ai 计费,本地需 QEMU/虚拟化资源
  • 计算机使用智能体可控性/可靠性仍是难题,复杂任务成功率有限
  • 让智能体控制桌面需注意权限与安全边界
  • 跨平台 Driver(Rust 移植)部分仍实验性
来源:README.md(Cua Driver、Agent-Ready Sandboxes 矩阵、Rust 实验说明)

最新版本

本页未列出具体版本号;Cua 持续迭代,围绕 Cua Driver(macOS 后台计算机使用、Rust 跨平台移植)、跨 OS 沙箱 SDK、云/本地运行与基准完善。更新以扩展 OS/运行时支持与智能体训练评估能力为主。

来源:README.md(Cua Driver、Agent-Ready Sandboxes、Rust 实验)

总结评价

Cua 是「计算机使用智能体」方向的完整开源基础设施:跨 OS 统一沙箱 API(Linux/macOS/Windows/Android,云或本地 QEMU)+ 用于训练/评估的基准,外加能在 macOS 后台驱动原生应用、不抢焦点、连画布工具也能操作并录可回放轨迹的 Cua Driver,还能经 MCP 接入 Claude Code/Cursor。对研究或构建 Operator/Manus 式桌面智能体的团队很有价值。要清楚云端按量计费、本地需虚拟化资源、计算机使用的可靠性仍是难题、且需注意桌面控制的权限与安全。作为计算机使用智能体的底座,它覆盖全、工程化强。

来源:综合 README.md 的 Driver/Sandbox 能力、跨 OS 与训练评估定位
透明度声明
本页内容由 AI(大语言模型)基于以下公开材料自动生成:GitHub README、代码目录结构、依赖文件、Release 信息。 分析时间: 2026-05-24 14:47. 质量评分: 100/100.

数据来源:README、GitHub API、依赖文件