Browser Harness 是一个允许大型语言模型(LLM)直接与真实浏览器交互的开源工具,用于完成任何浏览器任务。
来源:据 README 描述 查看 GitHub 仓库 →Browser Harness 受关注的原因包括其独特的直接浏览器交互能力,为 LLM 提供了完成复杂浏览器任务的能力,填补了现有工具在浏览器自动化领域的空白。它采用了 WebSocket 连接,提供了简洁且强大的 API,以及社区贡献的特定领域技能,使其在处理特定网站和任务时表现出色。
来源:综合 README 描述和项目特征Browser Harness 通过 WebSocket 连接直接与 Chrome 浏览器交互,允许 LLM 完成任何浏览器任务,无需中间层。
来源:据 README 描述随着每次运行,harness 会自我改进,自动生成缺失的辅助代码,从而提高执行效率。
来源:据 README 描述Browser Harness 支持社区贡献的特定网站和任务技能,通过 PR 形式贡献,使得 harness 能够处理更多复杂场景。
来源:据 README 描述项目采用模块化设计,核心功能集中在 `src/browser_harness/` 目录下。依赖文件表明使用了 `cdp-use` 和 `fetch-use` 等库进行浏览器交互和数据处理。数据流转通过 WebSocket 连接进行,关键的技术决策包括使用 Python 3.11 及以上版本,以及依赖特定版本的库来确保兼容性和稳定性。
来源:代码目录结构 + 依赖文件infra: 信息不足,待补充 | key_deps: cdp-use, fetch-use, pillow, websockets | language: Python | framework: 无特定框架,采用模块化设计
来源:依赖文件 + 代码目录结构Browser Harness 适合需要自动化浏览器任务的开发者、测试人员和研究人员。具体场景包括自动化网页爬取、自动化测试、数据提取和特定网站交互等。
来源:README信息不足,待补充
来源:GitHub ReleasesBrowser Harness 是一个值得关注的开源项目,特别是对于需要自动化浏览器任务的开发者和研究人员。它提供了独特的直接浏览器交互能力和自我修复机制,以及社区驱动的技能扩展,适合寻求强大且灵活的浏览器自动化解决方案的团队和个人使用。
来源:综合分析