# L2 — 核心模块与接口契约层
**文档版本**: 2.1
**适用项目**: sgClaw(ZeroClaw 重构版)
**编制日期**: 2026-03-29
**读者**: 架构工程师、实现工程师、联调工程师
---
## 1. 模块地图
当前仓库中的有效模块结构如下:
```
src/
├── main.rs
├── lib.rs
├── agent/
├── compat/
├── config/
├── llm/
├── pipe/
└── security/
```
模块边界按职责划分为五层:
| 层级 | 模块 | 责任 |
|---|---|---|
| 传输层 | `pipe` | 定义消息、握手、序列号、收发与命令等待 |
| 安全层 | `security`、`resources/rules.json` | 域名、动作与 pipe 命令边界控制 |
| 运行时入口层 | `lib.rs`、`agent` | 接收任务、选择执行路径、回传日志与结果 |
| 适配层 | `compat`、`config` | 把 sgClaw 宿主环境映射到 zeroclaw 运行时;当前仍带有过渡性限制 |
| 核心能力层 | `third_party/zeroclaw` | prompt、skills、memory、tool loop、provider 抽象 |
本轮冻结后还需要一组跨仓统一术语:
- `host`
指 SuperRPA 浏览器宿主,只拥有安全边界、进程托管和展示装配权。
- `launch config`
指由 `host` 读取的启动描述文件。
- `runtime config`
指由 sgClaw 读取的运行时策略文件。
- `frontend bundle`
指由 `host` 装载的前端展示资源。
- `planner-first`
指 sgClaw / zeroclaw 先产生计划、前端先展示计划、随后再执行的运行时行为。
---
## 2. 核心模块职责
### 2.1 `src/lib.rs`
[`src/lib.rs`](/home/zyl/projects/sgClaw/claw/src/lib.rs) 是运行时总装入口,负责:
- 创建 `StdioTransport`。
- 调用 `perform_handshake`。
- 加载默认规则文件 `resources/rules.json`。
- 构造 `BrowserPipeTool`。
- 进入长循环,接收浏览器消息并交给 `agent::handle_browser_message`。
这里没有业务 UI、任务队列或调度中心逻辑,只有最小可运行闭环。
### 2.2 `src/agent/mod.rs`
[`src/agent/mod.rs`](/home/zyl/projects/sgClaw/claw/src/agent/mod.rs) 当前决定执行路径:
- 收到 `BrowserMessage::SubmitTask` 时优先尝试读取 `SgClawSettings`。
- 环境配置存在,则走 `compat::runtime::execute_task_with_sgclaw_settings`。
- 环境配置不存在,则直接返回“未配置大语言模型”,而不是再把生产 submit 流量导回旧 planner。
这就是当前系统的“路由器”。但文档上应把它理解为过渡性 runtime selector,而不是最终产品架构中心。长期看,`planner-first`、provider 选择与 backend 选择都应由 `runtime config` 显式驱动。
### 2.3 `src/agent/runtime.rs`
该文件现在应被视为 `legacy/dev-only` 模块,只保留仓库内的轻量 LLM/tool 调用逻辑用于局部验证,核心特点:
- 工具名固定为 `browser_action`。
- schema 只允许 `click/type/navigate/getText`。
- 每次工具调用前后发送 `log_entry`。
- 结果失败时直接返回 `PipeError::Protocol`。
- 不参与当前生产浏览器 submit 路由。
### 2.4 `src/compat/runtime.rs`
[`src/compat/runtime.rs`](/home/zyl/projects/sgClaw/claw/src/compat/runtime.rs) 是当前 ZeroClaw 接入的关键模块:
- 负责构造 ZeroClaw config。
- 负责创建 provider。
- 负责把 `BrowserPipeTool` 包装成 ZeroClaw Tool。
- 负责消费 ZeroClaw `TurnEvent` 并桥接为 `log_entry`。
重要事实:
- 当前 compat 层只向 ZeroClaw 注册一个工具。
- `allowed_tools` 被收敛到 `browser_action`。
- 这意味着当前代码还没有把 sgClaw 做成 zeroclaw-first runtime。
- 这是一种实现限制,不应被文档提升为产品原则。
### 2.7 host / launch config / runtime config 契约
跨仓接口收口后,`host` 与 sgClaw 的最小契约应为:
| 对象 | 读取方 | 责任 | 失败时兜底 |
|---|---|---|---|
| `launch config` | `host` | 解析 `binary`、`args`、`env`、`working_dir`、`runtime_config_path`、`frontend_bundle_dir` | 回退到浏览器内置默认启动策略 |
| `runtime config` | sgClaw | 解析 provider、model、planner mode、backend、skills policy | 回退到 sgClaw 默认运行时配置 |
| `frontend bundle` | `host` | 提供浮窗/面板展示资源 | 回退到浏览器内置 WebUI 资源 |
这里的关键点是:`host` 只负责校验和装配,不负责决定 planner、model routing 或 business behavior。
### 2.8 launch config 文件路径与回退规则
设计冻结口径如下:
- profile-local `launch config` 路径:`/superrpa/sgclaw_launch_config.json`
- profile-local `runtime config` 路径:`/superrpa/sgclaw_config.json`
- profile-local hooks / rules 仍沿用:
- `/superrpa/hooks.json`
- `/superrpa/rules.json`
`launch config` 的回退规则必须保持稳定:
1. 优先读取 `/superrpa/sgclaw_launch_config.json`
2. 缺失或解析失败时,回退到当前浏览器内置默认启动参数
3. `runtime_config_path` 缺失时,回退到 `/superrpa/sgclaw_config.json`
4. `frontend_bundle_dir` 缺失、无效或校验失败时,回退到 bundled frontend resources
### 2.9 frontend bundle 与 planner-first 契约
`frontend bundle` 只能消费这些由 `host` 转发的运行时状态:
- 当前状态与日志
- planner 输出
- 会话消息
- 最终执行结果
`frontend bundle` 不能直接拥有:
- provider 切换决策权
- planner 开关控制权
- executor 旁路能力
因此 `planner-first` 的契约应是:
1. sgClaw / zeroclaw 产生计划
2. `frontend bundle` 先展示计划
3. 经运行时确认后再执行
这是一条 runtime contract,不是一条前端内部约定。
### 2.5 `src/pipe/browser_tool.rs`
该模块承担真实浏览器命令发送职责,也是当前系统中最重要的特权工具面桥接层:
- 为每个命令分配 `seq`。
- 计算 HMAC。
- 发送 `AgentMessage::Command`。
- 阻塞等待对应 `BrowserMessage::Response`。
- 在超时、响应错配、校验失败时返回错误。
它是 Rust 侧最重要的协议执行点。架构上应把它理解为“privileged browser surface adapter”,而不是“整个 runtime 本体”。
### 2.6 `src/security/mac_policy.rs`
安全策略只认规则文件与 pipe contract,不认模型意图。
规则来源为 [`resources/rules.json`](/home/zyl/projects/sgClaw/claw/resources/rules.json),当前默认约束是:
- 允许域名:`oa.example.com`、`erp.example.com`、`hr.example.com` 及 demo 域名。
- 允许动作:`click`、`type`、`navigate`、`getText`。
- 显式阻断:`eval`、`executeJsInPage`。
---
## 3. 协议契约
### 3.1 消息类型
[`src/pipe/protocol.rs`](/home/zyl/projects/sgClaw/claw/src/pipe/protocol.rs) 定义了三类浏览器到 Rust 的消息:
```rust
BrowserMessage::Init
BrowserMessage::SubmitTask
BrowserMessage::Response
```
以及四类 Rust 到浏览器的消息:
```rust
AgentMessage::InitAck
AgentMessage::LogEntry
AgentMessage::TaskComplete
AgentMessage::Command
```
### 3.2 `Init` / `InitAck`
握手字段:
- `version`
- `hmac_seed`
- `capabilities`
Rust 返回:
- `version`
- `agent_id`
- `supported_actions`
注意:`supported_actions` 是协议枚举能力,不等于当前策略白名单。
### 3.3 `Command`
命令消息结构:
```json
{
"seq": 1,
"type": "command",
"action": "click",
"params": { "selector": "#submit" },
"security": {
"expected_domain": "erp.example.com",
"hmac": ""
}
}
```
契约重点:
- `seq` 必须单调递增。
- `action` 必须是协议枚举之一。
- `expected_domain` 必须参与安全校验。
- `hmac` 必须由当前会话密钥计算。
### 3.4 `Response`
浏览器回包结构:
```json
{
"seq": 1,
"type": "response",
"success": true,
"data": {},
"aom_snapshot": [],
"timing": {
"queue_ms": 0,
"exec_ms": 12
}
}
```
Rust 侧依赖此消息完成工具调用闭环。
`seq` 不匹配、超时或缺失都应视为协议错误。
### 3.5 与浏览器对接标准的关系
[`docs/浏览器对接标准.md`](/home/zyl/projects/sgClaw/claw/docs/浏览器对接标准.md) 是联调规范。
L2 是产品内核视角的契约说明。两者关系如下:
- L2 负责解释“为什么有这些字段、这些模块如何依赖它们”。
- 对接标准负责约束“浏览器宿主必须如何实现 wire contract”。
---
## 4. 动作契约
### 4.1 协议枚举
协议层已经定义了以下动作枚举:
- `click`
- `type`
- `navigate`
- `getText`
- `getHtml`
- `waitForSelector`
- `pageScreenshot`
- `select`
- `scrollTo`
- `getAomSnapshot`
- `storageSet`
- `storageGet`
- `zombieSpawn`
- `zombieKill`
### 4.2 当前生效动作
当前文档、规则和工具 schema 必须以“生效动作”为准,而不是“预留枚举”为准。
生效动作只有 4 个:
- `click`
- `type`
- `navigate`
- `getText`
约束来源有三处,三者必须一致:
1. `resources/rules.json`
2. `src/agent/runtime.rs` 的 tool definition
3. `src/compat/browser_tool_adapter.rs` 的 `parameters_schema` 与 `parse_action`
这三者表达的是“当前特权浏览器工具面”的开放范围,而不是 sgClaw 整体 runtime 的长期能力上限。
---
## 5. `browser_action` 工具契约
### 5.1 工具名
固定为:
```text
browser_action
```
### 5.2 参数 schema
当前有效参数:
- `action`
- `expected_domain`
- `selector`
- `text`
- `url`
- `clear_first`
其中:
- `click` 通常需要 `selector`
- `type` 通常需要 `selector` 与 `text`
- `navigate` 通常需要 `url`
- `getText` 通常需要 `selector`
### 5.3 失败语义
工具执行失败分两类:
1. 参数级失败
说明:缺少必填字段、动作不支持、参数类型错误。
2. 协议级失败
说明:MAC 不通过、浏览器回包 `success=false`、响应超时、序列号异常。
这两类失败最终都会转为任务失败并通过 `task_complete` 回传。
---
## 6. 接口演进原则
L2 之后的扩展应遵守以下原则:
- 新增动作先进入协议枚举,再补规则白名单,再开放给 tool schema。
- 不允许只改文档或只改提示词就宣称动作可用。
- 兼容层与 fallback 路径必须对外保持同一工具名和同一主契约。
- 浏览器宿主联调时以 wire contract 为最高优先级,不把模型行为假设写进协议。