# L2 — 核心模块与接口契约层 **文档版本**: 2.1
**适用项目**: sgClaw(ZeroClaw 重构版)
**编制日期**: 2026-03-29 **读者**: 架构工程师、实现工程师、联调工程师 --- ## 1. 模块地图 当前仓库中的有效模块结构如下: ``` src/ ├── main.rs ├── lib.rs ├── agent/ ├── compat/ ├── config/ ├── llm/ ├── pipe/ └── security/ ``` 模块边界按职责划分为五层: | 层级 | 模块 | 责任 | |---|---|---| | 传输层 | `pipe` | 定义消息、握手、序列号、收发与命令等待 | | 安全层 | `security`、`resources/rules.json` | 域名、动作与 pipe 命令边界控制 | | 运行时入口层 | `lib.rs`、`agent` | 接收任务、选择执行路径、回传日志与结果 | | 适配层 | `compat`、`config` | 把 sgClaw 宿主环境映射到 zeroclaw 运行时;当前仍带有过渡性限制 | | 核心能力层 | `third_party/zeroclaw` | prompt、skills、memory、tool loop、provider 抽象 | 本轮冻结后还需要一组跨仓统一术语: - `host` 指 SuperRPA 浏览器宿主,只拥有安全边界、进程托管和展示装配权。 - `launch config` 指由 `host` 读取的启动描述文件。 - `runtime config` 指由 sgClaw 读取的运行时策略文件。 - `frontend bundle` 指由 `host` 装载的前端展示资源。 - `planner-first` 指 sgClaw / zeroclaw 先产生计划、前端先展示计划、随后再执行的运行时行为。 --- ## 2. 核心模块职责 ### 2.1 `src/lib.rs` [`src/lib.rs`](/home/zyl/projects/sgClaw/claw/src/lib.rs) 是运行时总装入口,负责: - 创建 `StdioTransport`。 - 调用 `perform_handshake`。 - 加载默认规则文件 `resources/rules.json`。 - 构造 `BrowserPipeTool`。 - 进入长循环,接收浏览器消息并交给 `agent::handle_browser_message`。 这里没有业务 UI、任务队列或调度中心逻辑,只有最小可运行闭环。 ### 2.2 `src/agent/mod.rs` [`src/agent/mod.rs`](/home/zyl/projects/sgClaw/claw/src/agent/mod.rs) 当前决定执行路径: - 收到 `BrowserMessage::SubmitTask` 时优先尝试读取 `SgClawSettings`。 - 环境配置存在,则走 `compat::runtime::execute_task_with_sgclaw_settings`。 - 环境配置不存在,则直接返回“未配置大语言模型”,而不是再把生产 submit 流量导回旧 planner。 这就是当前系统的“路由器”。但文档上应把它理解为过渡性 runtime selector,而不是最终产品架构中心。长期看,`planner-first`、provider 选择与 backend 选择都应由 `runtime config` 显式驱动。 ### 2.3 `src/agent/runtime.rs` 该文件现在应被视为 `legacy/dev-only` 模块,只保留仓库内的轻量 LLM/tool 调用逻辑用于局部验证,核心特点: - 工具名固定为 `browser_action`。 - schema 只允许 `click/type/navigate/getText`。 - 每次工具调用前后发送 `log_entry`。 - 结果失败时直接返回 `PipeError::Protocol`。 - 不参与当前生产浏览器 submit 路由。 ### 2.4 `src/compat/runtime.rs` [`src/compat/runtime.rs`](/home/zyl/projects/sgClaw/claw/src/compat/runtime.rs) 是当前 ZeroClaw 接入的关键模块: - 负责构造 ZeroClaw config。 - 负责创建 provider。 - 负责把 `BrowserPipeTool` 包装成 ZeroClaw Tool。 - 负责消费 ZeroClaw `TurnEvent` 并桥接为 `log_entry`。 重要事实: - 当前 compat 层只向 ZeroClaw 注册一个工具。 - `allowed_tools` 被收敛到 `browser_action`。 - 这意味着当前代码还没有把 sgClaw 做成 zeroclaw-first runtime。 - 这是一种实现限制,不应被文档提升为产品原则。 ### 2.7 host / launch config / runtime config 契约 跨仓接口收口后,`host` 与 sgClaw 的最小契约应为: | 对象 | 读取方 | 责任 | 失败时兜底 | |---|---|---|---| | `launch config` | `host` | 解析 `binary`、`args`、`env`、`working_dir`、`runtime_config_path`、`frontend_bundle_dir` | 回退到浏览器内置默认启动策略 | | `runtime config` | sgClaw | 解析 provider、model、planner mode、backend、skills policy | 回退到 sgClaw 默认运行时配置 | | `frontend bundle` | `host` | 提供浮窗/面板展示资源 | 回退到浏览器内置 WebUI 资源 | 这里的关键点是:`host` 只负责校验和装配,不负责决定 planner、model routing 或 business behavior。 ### 2.8 launch config 文件路径与回退规则 设计冻结口径如下: - profile-local `launch config` 路径:`/superrpa/sgclaw_launch_config.json` - profile-local `runtime config` 路径:`/superrpa/sgclaw_config.json` - profile-local hooks / rules 仍沿用: - `/superrpa/hooks.json` - `/superrpa/rules.json` `launch config` 的回退规则必须保持稳定: 1. 优先读取 `/superrpa/sgclaw_launch_config.json` 2. 缺失或解析失败时,回退到当前浏览器内置默认启动参数 3. `runtime_config_path` 缺失时,回退到 `/superrpa/sgclaw_config.json` 4. `frontend_bundle_dir` 缺失、无效或校验失败时,回退到 bundled frontend resources ### 2.9 frontend bundle 与 planner-first 契约 `frontend bundle` 只能消费这些由 `host` 转发的运行时状态: - 当前状态与日志 - planner 输出 - 会话消息 - 最终执行结果 `frontend bundle` 不能直接拥有: - provider 切换决策权 - planner 开关控制权 - executor 旁路能力 因此 `planner-first` 的契约应是: 1. sgClaw / zeroclaw 产生计划 2. `frontend bundle` 先展示计划 3. 经运行时确认后再执行 这是一条 runtime contract,不是一条前端内部约定。 ### 2.5 `src/pipe/browser_tool.rs` 该模块承担真实浏览器命令发送职责,也是当前系统中最重要的特权工具面桥接层: - 为每个命令分配 `seq`。 - 计算 HMAC。 - 发送 `AgentMessage::Command`。 - 阻塞等待对应 `BrowserMessage::Response`。 - 在超时、响应错配、校验失败时返回错误。 它是 Rust 侧最重要的协议执行点。架构上应把它理解为“privileged browser surface adapter”,而不是“整个 runtime 本体”。 ### 2.6 `src/security/mac_policy.rs` 安全策略只认规则文件与 pipe contract,不认模型意图。 规则来源为 [`resources/rules.json`](/home/zyl/projects/sgClaw/claw/resources/rules.json),当前默认约束是: - 允许域名:`oa.example.com`、`erp.example.com`、`hr.example.com` 及 demo 域名。 - 允许动作:`click`、`type`、`navigate`、`getText`。 - 显式阻断:`eval`、`executeJsInPage`。 --- ## 3. 协议契约 ### 3.1 消息类型 [`src/pipe/protocol.rs`](/home/zyl/projects/sgClaw/claw/src/pipe/protocol.rs) 定义了三类浏览器到 Rust 的消息: ```rust BrowserMessage::Init BrowserMessage::SubmitTask BrowserMessage::Response ``` 以及四类 Rust 到浏览器的消息: ```rust AgentMessage::InitAck AgentMessage::LogEntry AgentMessage::TaskComplete AgentMessage::Command ``` ### 3.2 `Init` / `InitAck` 握手字段: - `version` - `hmac_seed` - `capabilities` Rust 返回: - `version` - `agent_id` - `supported_actions` 注意:`supported_actions` 是协议枚举能力,不等于当前策略白名单。 ### 3.3 `Command` 命令消息结构: ```json { "seq": 1, "type": "command", "action": "click", "params": { "selector": "#submit" }, "security": { "expected_domain": "erp.example.com", "hmac": "" } } ``` 契约重点: - `seq` 必须单调递增。 - `action` 必须是协议枚举之一。 - `expected_domain` 必须参与安全校验。 - `hmac` 必须由当前会话密钥计算。 ### 3.4 `Response` 浏览器回包结构: ```json { "seq": 1, "type": "response", "success": true, "data": {}, "aom_snapshot": [], "timing": { "queue_ms": 0, "exec_ms": 12 } } ``` Rust 侧依赖此消息完成工具调用闭环。 `seq` 不匹配、超时或缺失都应视为协议错误。 ### 3.5 与浏览器对接标准的关系 [`docs/浏览器对接标准.md`](/home/zyl/projects/sgClaw/claw/docs/浏览器对接标准.md) 是联调规范。 L2 是产品内核视角的契约说明。两者关系如下: - L2 负责解释“为什么有这些字段、这些模块如何依赖它们”。 - 对接标准负责约束“浏览器宿主必须如何实现 wire contract”。 --- ## 4. 动作契约 ### 4.1 协议枚举 协议层已经定义了以下动作枚举: - `click` - `type` - `navigate` - `getText` - `getHtml` - `waitForSelector` - `pageScreenshot` - `select` - `scrollTo` - `getAomSnapshot` - `storageSet` - `storageGet` - `zombieSpawn` - `zombieKill` ### 4.2 当前生效动作 当前文档、规则和工具 schema 必须以“生效动作”为准,而不是“预留枚举”为准。 生效动作只有 4 个: - `click` - `type` - `navigate` - `getText` 约束来源有三处,三者必须一致: 1. `resources/rules.json` 2. `src/agent/runtime.rs` 的 tool definition 3. `src/compat/browser_tool_adapter.rs` 的 `parameters_schema` 与 `parse_action` 这三者表达的是“当前特权浏览器工具面”的开放范围,而不是 sgClaw 整体 runtime 的长期能力上限。 --- ## 5. `browser_action` 工具契约 ### 5.1 工具名 固定为: ```text browser_action ``` ### 5.2 参数 schema 当前有效参数: - `action` - `expected_domain` - `selector` - `text` - `url` - `clear_first` 其中: - `click` 通常需要 `selector` - `type` 通常需要 `selector` 与 `text` - `navigate` 通常需要 `url` - `getText` 通常需要 `selector` ### 5.3 失败语义 工具执行失败分两类: 1. 参数级失败 说明:缺少必填字段、动作不支持、参数类型错误。 2. 协议级失败 说明:MAC 不通过、浏览器回包 `success=false`、响应超时、序列号异常。 这两类失败最终都会转为任务失败并通过 `task_complete` 回传。 --- ## 6. 接口演进原则 L2 之后的扩展应遵守以下原则: - 新增动作先进入协议枚举,再补规则白名单,再开放给 tool schema。 - 不允许只改文档或只改提示词就宣称动作可用。 - 兼容层与 fallback 路径必须对外保持同一工具名和同一主契约。 - 浏览器宿主联调时以 wire contract 为最高优先级,不把模型行为假设写进协议。