Consolidate the browser task runtime around the callback path, add safer artifact opening for Zhihu exports, and cover the new service/browser flows with focused tests and supporting docs. Co-Authored-By: Claude Sonnet 4.6 <noreply@anthropic.com>
507 lines
16 KiB
Markdown
507 lines
16 KiB
Markdown
# WS 浏览器后端认证替换设计
|
||
|
||
## 背景
|
||
|
||
当前 `sg_claw` 的 websocket service 路径已经能接收 `sg_claw_client` 请求、复用共享 task runner、连接真实浏览器 websocket 地址 `browser_ws_url`,并进入真实 skill 执行链路。但真实联调时,所有浏览器相关调用都会失败并返回:
|
||
|
||
- `invalid hmac seed: session key must not be empty`
|
||
|
||
根因已经定位:
|
||
|
||
- pipe 模式在 [src/lib.rs](src/lib.rs) 中通过 handshake 拿到 `session_key`,并用它构造 `BrowserPipeTool`
|
||
- ws service 模式在 [src/service/server.rs](src/service/server.rs) 中仍然构造 `BrowserPipeTool::new(..., vec![])`
|
||
- `BrowserPipeTool` 的认证模型要求非空 session key,因此 ws service 路径虽然使用的是浏览器 websocket 协议,仍错误地依赖了 pipe 特有的 HMAC/session-key 语义
|
||
|
||
这会导致:
|
||
|
||
1. `sg_claw_client -> sg_claw` 连接正常
|
||
2. skill 加载与模型调用正常
|
||
3. 真实浏览器动作开始执行
|
||
4. 但所有 browser tool 调用在认证层统一失败
|
||
|
||
## 目标
|
||
|
||
在 **仅限 ws 模式改动** 的前提下,让 `sg_claw` service 路径改为使用 **ws-native browser backend**,不再依赖 `BrowserPipeTool` 的 pipe session-key 认证模型,从而让真实浏览器联调可用。
|
||
|
||
## 约束
|
||
|
||
必须满足:
|
||
|
||
- 只改 ws 模式相关实现
|
||
- 不破坏 legacy pipe 模式
|
||
- 不修改 pipe handshake 语义
|
||
- 不修改 `src/lib.rs` 的 pipe 主入口行为
|
||
- 不引入临时绕过认证或 fake seed
|
||
- 不扩大到多客户端、多任务、队列、守护进程管理
|
||
|
||
## 非目标
|
||
|
||
本次不做:
|
||
|
||
- 自动拉起 sgBrowser
|
||
- 浏览器进程管理
|
||
- 多浏览器实例支持
|
||
- service/client UX 优化
|
||
- browser ws 协议扩展
|
||
- pipe 模式重构
|
||
- 统一重构所有 runtime 层去完全依赖 `BrowserBackend`
|
||
|
||
## 现状分析
|
||
|
||
### 正常 pipe 路径
|
||
|
||
pipe 模式当前在 [src/lib.rs](src/lib.rs) 中:
|
||
|
||
1. 通过 `perform_handshake(...)` 读取浏览器侧初始化消息
|
||
2. 从 handshake 中拿到 `session_key`
|
||
3. 用 `BrowserPipeTool::new(transport.clone(), mac_policy, handshake.session_key)` 构造浏览器工具
|
||
4. 后续 browser action 使用 pipe/HMAC 语义
|
||
|
||
该路径已经可用,本次不能动。
|
||
|
||
### 当前 ws service 路径
|
||
|
||
当前 ws 模式在 [src/service/server.rs](src/service/server.rs) 中:
|
||
|
||
1. `sg_claw_client` 将任务发给 `sg_claw` service
|
||
2. service 构造 `ServiceBrowserTransport`
|
||
3. service 用 `BrowserPipeTool::new(transport.clone(), mac_policy.clone(), vec![])`
|
||
4. browser action 经 `ServiceBrowserTransport` 编码为 browser websocket 请求并发给 `browser_ws_url`
|
||
|
||
问题在于第 3 步:
|
||
|
||
- service 走的是 browser websocket 协议
|
||
- 但却仍使用 `BrowserPipeTool`
|
||
- `BrowserPipeTool` 内部仍坚持要求 pipe session key
|
||
- 因此真实 ws 联调时直接失败
|
||
|
||
### 现有 ws-native 能力
|
||
|
||
代码中已经存在:
|
||
|
||
- [src/browser/ws_protocol.rs](src/browser/ws_protocol.rs):固定 browser websocket 协议 codec
|
||
- [src/browser/ws_backend.rs](src/browser/ws_backend.rs):`WsBrowserBackend`
|
||
- [src/browser/mod.rs](src/browser/mod.rs):已导出 `WsBrowserBackend`
|
||
|
||
`WsBrowserBackend` 本身不依赖 pipe session key,而是:
|
||
|
||
- 使用 `WsClient` 发送/接收文本帧
|
||
- 使用 `MacPolicy` 做动作级校验
|
||
- 通过 `encode_v1_action(...)` 与 `decode_callback_frame(...)` 处理 ws 协议
|
||
|
||
这正是 ws service 模式应该使用的模型。
|
||
|
||
## 关键集成缝隙
|
||
|
||
当前共享 runner 的真实缝隙已经确认:
|
||
|
||
- [src/agent/task_runner.rs](src/agent/task_runner.rs) 的 `run_submit_task(...)` 仍直接要求 `&BrowserPipeTool<T>`
|
||
- [src/compat/runtime.rs](src/compat/runtime.rs) 与 [src/compat/orchestration.rs](src/compat/orchestration.rs) 也继续以 `BrowserPipeTool<T>` 作为主浏览器调用对象
|
||
- 同时 compat runtime 内部已经存在 `Arc<dyn BrowserBackend>` 的工具适配层,只是它目前是从 `PipeBrowserBackend::from_inner(browser_tool)` 包出来的
|
||
|
||
这意味着本次实现不能只在 `src/service/server.rs` 里替换构造逻辑,而必须在 **ws 专用调用面** 增加一个最小适配缝隙,让 service 模式能把 `WsBrowserBackend` 传入 compat/runtime/orchestration,而 pipe 继续保持 `BrowserPipeTool` 原样。
|
||
|
||
允许的最小缝隙定义如下:
|
||
|
||
1. `run_submit_task(...)` 的 pipe 版本保持不动,供 pipe 入口继续使用
|
||
2. 新增一个 **仅供 ws service 使用** 的并行入口,例如:
|
||
- `run_submit_task_with_browser_backend(...)`
|
||
- 或 service 侧调用的等价 ws-only adapter
|
||
3. ws-only 入口内部允许把浏览器依赖类型降到 `Arc<dyn BrowserBackend>`
|
||
4. `src/lib.rs`、pipe handshake、pipe `BrowserPipeTool` 构造逻辑不允许改行为
|
||
|
||
## 设计决策
|
||
|
||
### 决策 1:ws service 路径弃用 `BrowserPipeTool`
|
||
|
||
在 ws service 路径中,不再构造 `BrowserPipeTool`。
|
||
|
||
替代方案:
|
||
|
||
- service 侧提供一个 `WsClient` 实现
|
||
- 直接构造 `WsBrowserBackend`
|
||
- 让 ws service 的 browser action 通过 `WsBrowserBackend` 执行
|
||
|
||
### 决策 2:pipe 路径保持原样
|
||
|
||
pipe 模式继续:
|
||
|
||
- handshake
|
||
- `session_key`
|
||
- `BrowserPipeTool`
|
||
|
||
不做语义调整,不引入兼容层,不改动已存在的验证路径。
|
||
|
||
### 决策 3:runner 只在 ws 调用面做最小接线
|
||
|
||
当前共享 task runner 复用已经存在,本次不做大重构。
|
||
|
||
策略是:
|
||
|
||
- 只在 ws service 用到的调用面,改成可使用 `WsBrowserBackend`
|
||
- 如果必须扩共享调用接口,则仅做**最小、兼容、对 pipe 零影响**的改动
|
||
- 任何涉及 pipe 行为变更的改动都不允许
|
||
|
||
### 决策 4:保留现有 browser websocket 连接生命周期
|
||
|
||
本次不重做连接管理架构。
|
||
|
||
继续维持:
|
||
|
||
- 单客户端
|
||
- 单任务串行
|
||
- 按现有 service 生命周期维护 browser websocket 连接
|
||
|
||
只替换认证错误的执行路径,不顺手做生命周期优化。
|
||
|
||
## 目标架构
|
||
|
||
### 目标调用链
|
||
|
||
```text
|
||
sg_claw_client
|
||
-> sg_claw service
|
||
-> ws-native browser backend
|
||
-> browser_ws_url
|
||
-> sgBrowser
|
||
```
|
||
|
||
### 与 pipe 的并行关系
|
||
|
||
```text
|
||
pipe mode:
|
||
browser process <-> stdio/pipe <-> sgclaw::run() <-> BrowserPipeTool
|
||
|
||
ws mode:
|
||
sg_claw_client <-> sg_claw service <-> WsBrowserBackend <-> sgBrowser websocket
|
||
```
|
||
|
||
两条路径并行存在,互不混用认证模型。
|
||
|
||
## 模块设计
|
||
|
||
### 1. `src/service/server.rs`
|
||
|
||
这是本次核心改动文件。
|
||
|
||
#### 当前职责
|
||
|
||
- 管理 service client websocket 收发
|
||
- 将 service 请求转入共享 runner
|
||
- 维护 service->browser 的 websocket 传输桥
|
||
|
||
#### 本次改动
|
||
|
||
- 将“service->browser 的桥”从 `Transport + BrowserPipeTool` 组合改为 `WsClient + WsBrowserBackend`
|
||
- 删除 ws service 路径中对空 `session_key` 的依赖
|
||
- 继续保留 service socket 生命周期与 session 状态机
|
||
|
||
#### 目标结构
|
||
|
||
可接受的目标形态:
|
||
|
||
- `ServiceBrowserWsClient`:实现 `WsClient`
|
||
- 内部继续维护真实 browser websocket 连接
|
||
- `serve_client(...)` 在处理任务时构造 `WsBrowserBackend`
|
||
- 共享 runner 或其 ws 调用包装层通过该 backend 执行 browser action
|
||
|
||
### 2. 共享 runner / ws 调用包装层
|
||
|
||
本次不要求把全项目统一改成 `BrowserBackend`。
|
||
|
||
但 ws service 模式必须能把 browser action 接到 `WsBrowserBackend`。
|
||
|
||
可接受的最小方案:
|
||
|
||
- 在 ws service 使用的一层引入一个只服务 ws 模式的 adapter
|
||
- 该 adapter 把 runner 所需的 browser 调用能力委托给 `WsBrowserBackend`
|
||
|
||
要求:
|
||
|
||
- pipe 现有调用签名不变,或即使扩展也必须保证 pipe 行为完全一致
|
||
- 不允许为了 ws 把 pipe 入口重写
|
||
|
||
### 3. `src/browser/ws_backend.rs`
|
||
|
||
原则上复用现有实现。
|
||
|
||
只有在以下情况下才允许最小补改:
|
||
|
||
- service 真实联调发现它缺一个 ws service 必需但当前未暴露的能力
|
||
- 该补改只服务 ws-native 路径
|
||
- 不影响现有测试语义
|
||
|
||
## 连接职责与边界
|
||
|
||
为避免 service 侧与 `WsBrowserBackend` 重复实现责任,本次显式约束如下:
|
||
|
||
### `WsBrowserBackend` 负责
|
||
|
||
- 单次 `invoke(...)` 的请求串行化
|
||
- 调用 `encode_v1_action(...)`
|
||
- 发送 websocket 文本帧
|
||
- 等待即时状态帧
|
||
- 如有 callback,等待 callback 帧并做名称匹配
|
||
- 将结果统一为 `CommandOutput`
|
||
- 按现有 `WsBrowserBackend` 语义产出 timeout / protocol 错误
|
||
|
||
### service 侧 `WsClient` 适配器负责
|
||
|
||
- 持有真实 browser websocket 连接
|
||
- 在第一次请求时建立到 `browser_ws_url` 的连接
|
||
- 把 `send_text(...)` / `recv_text_timeout(...)` 委托到真实 websocket
|
||
- 将底层关闭、reset、timeout 统一映射为既有 `PipeError` 语义
|
||
- 不实现 request/response correlation,不解析 browser ws 协议 payload
|
||
|
||
### 明确不允许
|
||
|
||
- service 侧继续手写 callback 轮询逻辑
|
||
- service 侧继续直接调用 `encode_v1_action(...)` 组包作为主路径
|
||
- 在 service 侧复制 `WsBrowserBackend` 的协议处理逻辑
|
||
|
||
这样可以保证:
|
||
|
||
- `src/service/server.rs` 只负责“连线”
|
||
- `src/browser/ws_backend.rs` 继续负责“ws 浏览器调用语义”
|
||
|
||
## 数据流设计
|
||
|
||
### 成功路径
|
||
|
||
1. `sg_claw_client` 向 `sg_claw` 发 `SubmitTask`
|
||
2. service 收到任务并进入共享 runner
|
||
3. 当 runner 需要浏览器动作时:
|
||
- ws service 调用 `WsBrowserBackend.invoke(...)`
|
||
4. `WsBrowserBackend`:
|
||
- 用 `MacPolicy` 校验动作
|
||
- 用 `encode_v1_action(...)` 编码请求
|
||
- 发往 `browser_ws_url`
|
||
- 等待状态帧
|
||
- 如有 callback,继续等 callback 帧
|
||
5. 结果返回到 runner
|
||
6. runner 继续执行并向 client 流式输出日志和 completion
|
||
|
||
### 失败路径
|
||
|
||
#### browser websocket 不可连
|
||
|
||
- 返回明确的 browser websocket connect 错误
|
||
- 不冒充认证错误
|
||
|
||
#### 浏览器返回非 0 状态
|
||
|
||
- 返回明确协议错误:`browser returned non-zero status`
|
||
|
||
#### callback 超时
|
||
|
||
- 返回 timeout
|
||
|
||
#### websocket 断开
|
||
|
||
- 返回 `PipeError::PipeClosed`
|
||
- 由 service 生命周期逻辑处理
|
||
|
||
#### 不再允许的错误
|
||
|
||
- `invalid hmac seed: session key must not be empty`
|
||
|
||
该错误在 ws 模式下应彻底消失。
|
||
|
||
## 失败语义
|
||
|
||
为便于测试与实现,ws-only 路径的 outward error 语义固定如下:
|
||
|
||
### browser websocket connect 失败
|
||
|
||
- outward: `PipeError::Protocol("browser websocket connect failed: ...")`
|
||
|
||
### 浏览器返回非 0 状态码
|
||
|
||
- outward: `PipeError::Protocol("browser returned non-zero status: ...")`
|
||
|
||
### callback 超时
|
||
|
||
- outward: `PipeError::Timeout`
|
||
- timeout 来源:沿用 `WsBrowserBackend` / ws service 当前 response timeout 配置,默认 30 秒
|
||
|
||
### websocket 被对端正常关闭或 reset
|
||
|
||
- outward: `PipeError::PipeClosed`
|
||
- 不允许使用“等价错误”这类不精确表述
|
||
|
||
### 本次必须消除的错误
|
||
|
||
- `invalid hmac seed: session key must not be empty`
|
||
|
||
任何 ws service 联调路径再出现该错误,都视为实现未完成。
|
||
|
||
## 测试设计
|
||
|
||
### 分层测试策略
|
||
|
||
为避免依赖 LLM/planner 的非确定性行为,本次测试必须分成两层,且各自断言不同目标:
|
||
|
||
#### A. backend / adapter 层测试(确定性)
|
||
|
||
这一层不经过 `sg_claw_client`、不经过真实模型规划,直接验证 ws-only 技术行为。
|
||
|
||
目标:
|
||
|
||
1. `ServiceBrowserWsClient` 与 `WsBrowserBackend` 的组合可以:
|
||
- 发送 `Navigate`
|
||
- 接收 `0` 状态
|
||
- 在 callback 场景下读取 callback 文本
|
||
2. 当 fake browser server 主动关闭/reset 时:
|
||
- 在 `WsClient` / `WsBrowserBackend.invoke(...)` 观察层断言 outward error 必须是 `PipeError::PipeClosed`
|
||
3. 当 fake browser server 不返回 callback 时:
|
||
- 在 `WsBrowserBackend.invoke(...)` 观察层断言 outward error 必须是 `PipeError::Timeout`
|
||
4. 该层测试完全不依赖 LLM、planner、skills 路由
|
||
|
||
建议:
|
||
|
||
- 新增 focused ws service/backend test
|
||
- 输入动作固定为代码直接调用 `invoke(Action::Navigate, ...)` 等,而不是自然语言任务
|
||
|
||
#### B. client -> service 集成测试(链路验证)
|
||
|
||
这一层验证 ws-only 接线已经替换掉空 session key 路径,但不承担细粒度协议语义断言。
|
||
|
||
目标:
|
||
|
||
1. 通过真实 `sg_claw_client -> sg_claw service` 发起一个最小自然语言任务
|
||
2. fake browser websocket server 至少收到一个来自 ws-only 路径的文本帧
|
||
3. client/service 输出中不再出现:
|
||
- `invalid hmac seed: session key must not be empty`
|
||
4. 该层只证明:
|
||
- ws service 已不再走空 session key 的 pipe 认证路径
|
||
- 真实端到端链路已能到达 browser websocket
|
||
|
||
该层不用于断言精确 enum 身份,也不用于覆盖 callback timeout / reset 细节。
|
||
|
||
### 新增红测 1:ws-only backend/adapter 基本调用可用
|
||
|
||
目标:
|
||
|
||
- 不走自然语言任务
|
||
- 直接构造 ws service 使用的 `WsClient` + `WsBrowserBackend`
|
||
- 调用固定动作:`Action::Navigate`,目标 url 固定为 `https://www.zhihu.com/hot`
|
||
- fake browser websocket server 返回 `0`
|
||
- 断言:
|
||
- `invoke(...)` 成功
|
||
- fake server 收到的首个文本帧可按 `ws_protocol` 语义解释为 `Navigate`
|
||
|
||
### 新增红测 2:ws-only backend/adapter 断链语义固定
|
||
|
||
目标:
|
||
|
||
- 不走自然语言任务
|
||
- fake browser websocket server 在接受请求后主动关闭或 reset
|
||
- 在 `invoke(...)` 观察层断言:
|
||
- outward error 固定为 `PipeError::PipeClosed`
|
||
|
||
### 新增红测 3:ws-only backend/adapter callback timeout 语义固定
|
||
|
||
目标:
|
||
|
||
- 不走自然语言任务
|
||
- fake browser websocket server 返回 `0` 但不返回 callback 帧
|
||
- 在 `invoke(...)` 观察层断言:
|
||
- outward error 固定为 `PipeError::Timeout`
|
||
|
||
### 新增红测 4:client->service 链路不再触发空 session key 错误
|
||
|
||
目标:
|
||
|
||
- 通过真实 `sg_claw_client -> sg_claw service` 链路触发浏览器动作
|
||
- 用 fake browser websocket 服务端接住请求
|
||
- 任务输入固定为:`打开知乎热榜并读取页面主区域文本`
|
||
- 断言 client/service 输出中不再出现:
|
||
- `invalid hmac seed: session key must not be empty`
|
||
- 断言 fake browser server 至少收到了一个文本帧
|
||
|
||
### 回归测试
|
||
|
||
必须重新运行并保持通过:
|
||
|
||
#### pipe 回归
|
||
|
||
```bash
|
||
cargo test --test pipe_handshake_test -- --nocapture
|
||
```
|
||
|
||
如实现涉及 browser tool 上层接线,还需补跑:
|
||
|
||
```bash
|
||
cargo test --test browser_tool_test --test compat_browser_tool_test --test runtime_task_flow_test -- --nocapture
|
||
```
|
||
|
||
#### ws 回归
|
||
|
||
```bash
|
||
cargo test --test service_ws_session_test --test service_task_flow_test --test browser_ws_protocol_test --test browser_ws_backend_test -- --nocapture
|
||
```
|
||
|
||
## 手工验收
|
||
|
||
使用真实配置和真实已启动 sgBrowser:
|
||
|
||
1. 启动 sgBrowser,并确保 `browserWsUrl` 可用
|
||
2. 启动 `sg_claw`
|
||
3. 运行:
|
||
- `sg_claw_client`
|
||
4. 发送知乎最小任务:
|
||
- 打开知乎热榜并读取页面主区域文本
|
||
5. 观察:
|
||
- 不再出现 `invalid hmac seed`
|
||
- 出现真实 browser action 日志
|
||
- 能返回单次 completion
|
||
6. 再运行旧知乎 skill:
|
||
- `读取知乎热榜数据,并导出 excel 文件`
|
||
7. 验证旧知乎 skill 进入真实 browser 执行路径
|
||
8. 最后确认 legacy pipe 入口仍可启动(仅验证,不允许为此修改 pipe 实现)
|
||
|
||
## 风险
|
||
|
||
### 风险 1:ws service 与共享 runner 接口耦合过深
|
||
|
||
控制:
|
||
|
||
- 只在 ws 使用面做 adapter
|
||
- 不对 pipe 主入口做结构性改造
|
||
|
||
### 风险 2:为适配 ws-native backend 误改 pipe 调用链
|
||
|
||
控制:
|
||
|
||
- 所有 pipe 回归必须在每轮修改后重跑
|
||
- `src/lib.rs` 不允许改行为
|
||
|
||
### 风险 3:ws service 内联连接逻辑与 `WsBrowserBackend` 责任重复
|
||
|
||
控制:
|
||
|
||
- 本次先以最小变更消除认证阻塞
|
||
- 不顺手做大规模整理
|
||
|
||
## 通过标准
|
||
|
||
满足以下全部条件才算完成:
|
||
|
||
1. ws service 路径不再依赖空 session key
|
||
2. 不再出现 `invalid hmac seed: session key must not be empty`
|
||
3. 真实 browser websocket 请求能发到 sgBrowser/fake browser server
|
||
4. 旧知乎 skill 至少能进入真实 browser action 执行链路
|
||
5. pipe 模式零回归
|
||
6. 所有新增/相关测试通过
|
||
|
||
## 实施建议
|
||
|
||
按以下顺序实施:
|
||
|
||
1. 先补红测,锁定“ws 不再触发 invalid hmac seed”
|
||
2. 再把 ws service 路径切到 `WsBrowserBackend`
|
||
3. 跑 ws 测试
|
||
4. 跑 pipe 回归
|
||
5. 做真实知乎最小任务 smoke
|
||
6. 再做旧知乎 skill smoke
|