cua 深度解析：架构、场景与部署指南（19K★）

为什么值得关注

「计算机使用智能体」（让 AI 像人一样操作桌面/应用）是 Operator/Manus 之后的热点方向，而要训练/评估这类智能体需要可控的沙箱与统一 SDK。Cua 提供跨 OS（含 macOS/Windows/Android）的一致沙箱 API、可后台驱动 macOS 原生应用且不抢焦点、还录可回放轨迹、并有基准，基础设施完整，因而受关注。截至数据采集约 17,038 stars。

来源：README.md（描述、Cua Driver、Agent-Ready Sandboxes）；GitHub 仓库元数据（stars=17038、topics 含 computer-use/operator/manus）

核心功能

后台计算机使用（Cua Driver）

在 macOS 后台驱动原生应用（含 Chromium/画布工具），不抢光标/焦点/Space；经 CLI 或 MCP 使用，会话录成可回放轨迹。

来源：README.md（Cua Driver）

跨 OS 统一沙箱 API

一套 API 跨 Linux/macOS/Windows/Android 创建沙箱，做 shell、截图、鼠标/键盘/多点触控等操作；云端或本地 QEMU 皆可。

来源：README.md（Agent-Ready Sandboxes 代码与矩阵）

训练/评估基础设施

提供沙箱、SDK 与基准，用于训练和评估能控制完整桌面的计算机使用智能体。

来源：README.md（描述）

云/本地与多镜像

支持云端 cua.ai 与本地 QEMU，覆盖 Linux 容器/VM、macOS、Windows、Android，本地还支持自带镜像（.qcow2/.iso）。

来源：README.md（Agent-Ready Sandboxes 矩阵）

技术架构

Cua 由两大块组成：① Cua Driver——在 macOS 后台驱动任意原生应用，智能体点击/输入/校验时不抢光标、焦点或 Space，连非无障碍（AX）表面（Chromium 网页、Blender/Figma/DAW/游戏引擎等画布）也能操作；可经 CLI 或 MCP server（Claude Code/Cursor 等）使用，每次会话录成可回放轨迹；另有跨平台 Rust 移植（cua-driver-rs，实验）。② Agent-Ready Sandboxes——pip install cua，用同一套 API（无论 OS/运行时）创建沙箱：Sandbox.ephemeral(Image.linux()/.macos()/.windows()/.android())，再 shell.run、screenshot、mouse.click、keyboard.type、mobile.gesture 等操作；支持云端（cua.ai）与本地 QEMU 运行，覆盖 Linux 容器/VM、macOS、Windows、Android 及自带镜像（BYOI）。需 Python 3.11+。

来源：README.md（Cua Driver、Agent-Ready Sandboxes 的代码与矩阵）

项目知识图谱

中心为项目本体，内环 = 核心功能模块，外环 = 关键技术依赖；按 deep.json 中的 core_features 与 tech_stack.key_deps 自动生成

技术栈

语言Swift（macOS Driver）+ Python（SDK）+ Rust（实验移植）框架计算机使用智能体基础设施（Driver + Sandbox SDK）

关键依赖

QEMU / 虚拟化框架（本地沙箱）MCP（Claude Code/Cursor 等）Apple 虚拟化/容器化

基础设施 / 部署

云端 cua.ai 或本地 QEMU；Python 3.11+；CLI/MCP/SDK

来源：README.md（Cua Driver、Agent-Ready Sandboxes）；GitHub 仓库 topics（swift、virtualization、qemu 隐含）

快速上手

Cua Driver（macOS 后台计算机使用）：用 README 的 install.sh 一键安装（想试跨平台 Rust 移植加 -- --experimental-rust），可经 CLI 或 MCP server 在 Claude Code/Cursor 等里使用，工具参考与 Claude Code 技能随包提供。Agent-Ready Sandboxes：pip install cua（需 Python 3.11+），用统一 API 起沙箱——async with Sandbox.ephemeral(Image.linux()) as sb: 后 sb.shell.run/screenshot/mouse.click/keyboard.type 等；可选云端 cua.ai 或本地 QEMU，覆盖 Linux/macOS/Windows/Android。注意：让智能体控制桌面/应用应在你授权的环境中、并注意权限与安全边界。

来源：README.md（Cua Driver install、Agent-Ready Sandboxes 代码）

使用场景

适合研究和构建「计算机使用/桌面自动化智能体」的团队：在跨 OS 沙箱里让智能体看屏幕、操作应用、完成任务，并用基准训练/评估；用 Cua Driver 在 macOS 后台驱动原生应用而不打断你工作、录轨迹用于复现/调试；或经 MCP 接入 Claude Code/Cursor。适合 Operator/Manus 式智能体的开发、评测与数据采集。让智能体控制桌面需在授权环境与安全边界内进行。

来源：README.md（描述、Cua Driver、Agent-Ready Sandboxes）

优势与局限

优势

面向计算机使用智能体的完整基础设施：沙箱 + SDK + 基准
跨 OS 统一 API（Linux/macOS/Windows/Android），云端或本地 QEMU
Cua Driver 后台驱动 macOS 应用不抢焦点、连画布工具也能操作、录可回放轨迹
经 CLI/MCP 接入 Claude Code/Cursor，MIT 开源

局限

云端用量按 cua.ai 计费，本地需 QEMU/虚拟化资源
计算机使用智能体可控性/可靠性仍是难题，复杂任务成功率有限
让智能体控制桌面需注意权限与安全边界
跨平台 Driver（Rust 移植）部分仍实验性

来源：README.md（Cua Driver、Agent-Ready Sandboxes 矩阵、Rust 实验说明）

总结评价

Cua 是「计算机使用智能体」方向的完整开源基础设施：跨 OS 统一沙箱 API（Linux/macOS/Windows/Android，云或本地 QEMU）+ 用于训练/评估的基准，外加能在 macOS 后台驱动原生应用、不抢焦点、连画布工具也能操作并录可回放轨迹的 Cua Driver，还能经 MCP 接入 Claude Code/Cursor。对研究或构建 Operator/Manus 式桌面智能体的团队很有价值。要清楚云端按量计费、本地需虚拟化资源、计算机使用的可靠性仍是难题、且需注意桌面控制的权限与安全。作为计算机使用智能体的底座，它覆盖全、工程化强。

来源：综合 README.md 的 Driver/Sandbox 能力、跨 OS 与训练评估定位

常见问题

cua 是什么？

Cua（trycua）是面向「计算机使用智能体」（Computer-Use Agents）的开源基础设施：提供沙箱、SDK 和基准，用于训练和评估能控制完整桌面（macOS/Linux/Windows/Android）的 AI 智能体——让智能体看屏幕、点按钮、打字、完成任务。

cua 有哪些核心功能？

cua 的核心功能包括：后台计算机使用（Cua Driver）、跨 OS 统一沙箱 API、训练/评估基础设施、云/本地与多镜像。

cua 为什么最近很受关注？

cua 适合哪些使用场景？

透明度声明
本页内容由 AI（大语言模型）基于以下公开材料自动生成：GitHub README、代码目录结构、依赖文件、Release 信息。分析时间: 2026-05-24 14:47. 质量评分: 100/100.

数据来源：README、GitHub API、依赖文件