Files
claw/docs/superpowers/reports/2026-04-18-first-real-scene-migration-execution-sheet.md

121 lines
6.8 KiB
Markdown
Raw Permalink Blame History

This file contains ambiguous Unicode characters
This file contains Unicode characters that might be confused with other characters. If you think that this is intentional, you can safely ignore this warning. Use the Escape button to reveal them.
# 第一轮真实样本迁移与验证执行表
日期2026-04-18
上游设计:`docs/superpowers/specs/2026-04-17-scene-skill-60-to-90-roadmap-design.md`
上游计划:`docs/superpowers/plans/2026-04-17-scene-skill-60-to-90-roadmap-plan.md`
## 1. 文档目的
本表用于承接 `60 -> 90` 路线图进入真实样本阶段后的首轮落地动作。
这一轮不直接要求业务人员先去内网验证,而是先完成以下顺序:
1. 从真实场景中收敛首轮样本
2. 按当前 scene -> skill 转化链生成首轮 skill
3. 将生成结果与 `tq` 级基线或当前 canonical/family 基线对比
4. 只把通过结构、语义、readiness 初筛的候选物,送入后续内网验证
## 2. 选样原则
首轮样本选择遵循以下边界:
1. 严格服从 plan 的主线范围,只覆盖 `G1 + G2 + G3`
2. 优先选择业务结构清晰、家族代表性强、后续容易形成复用模板的场景
3. `G2` 优先级最高,因为它直接决定是否能逼近 `tq-lineloss-report` 级别的业务语义恢复
4. `G1` 首轮优先选择通用报表类,不优先选择强上传型、强附件型、强人工补录型
5. `G3` 首轮优先选择分页明细补数链清晰的工单类
6. 对发现“标题与真实脚本结构不一致”或“页面壳与业务链条错位”的场景,先降级为观察样本,不进入首轮主样本
## 3. 当前收敛结果
### 3.1 主样本家族
- `G2` 多模式报表家族:先打透
- `G1` 通用单页报表家族:先选干净样本验证可复制性
- `G3` 分页明细补数家族:验证复杂 workflow 拆解与 fail-closed
### 3.2 暂不纳入首轮主样本的发现
- `高低压新增报装容量月度统计表`
当前页面标题、工作信息描述、脚本主体出现明显不一致,疑似存在页面壳复用或内容错配,不适合作为首轮基准样本。
## 4. 第一轮执行样本表
| 序号 | 场景名称 | 家族 | 首轮角色 | 初判 archetype | 选入原因 | 主要风险 | 对标基线 | 当前状态 |
| --- | --- | --- | --- | --- | --- | --- | --- | --- |
| 1 | 台区线损大数据-月_周累计线损率统计分析 | G2 | P0 主锚点 | `multi_mode_request.month_week_table` | 已知原始场景,可直接对标 `tq-lineloss-report`,也是当前 60->90 提升的核心样板 | mode matrix、动态日期字段、localhost 与宿主桥接区分 | `tq-lineloss-report` + P0 canonical | 待生成 |
| 2 | 白银线损周报 | G2 | 家族扩展样本 | `multi_mode_request` 或同家族线损周报变体 | 与线损家族强相关,能验证 `tq` 样板是否可迁移到同家族其他周报 | 双系统登录态、周报聚合逻辑、内网 token 依赖 | `tq` 家族语义基线 + P1 family | 待生成 |
| 3 | 线损同期差异报表 | G2 | 复杂扩展样本 | `multi_mode_request` / `secondary_request` 复合链 | 能暴露“多系统对比、主请求 + 二次补链”的真实缺口,是 G2 向 90 分跨越的关键压力样本 | secondary request、跨系统上下文、workflow 拆解 | `tq` 家族语义基线 + P1 family | 待生成 |
| 4 | 售电收入日统计 | G1 | 主样本 | `single_request_table` 倾向,但可能带明细遍历 | 属于典型报表生成场景,页面参数较集中,适合作为 `G1` 首轮切入 | 可能存在按用户逐条查询与汇总,不一定是纯单请求 | P0/P1 canonical/family | 待生成 |
| 5 | 供电所线路电量统计 | G1 | 补充样本 | `single_request_table` 到轻量 workflow 之间 | 具备日期范围、关键词、结果表格,能验证单页查询统计类的可抽象程度 | 可能依赖跨页执行与页面内表格汇总,而非纯 API 报表导出 | P0/P1 canonical/family | 待生成 |
| 6 | 用户日电量监测 | G1 | 观察补样 | `single_request_table` 外围变体 | 可覆盖上传/处理/导出型报表边界,用于验证 G1 主模板的外延边界 | 上传驱动、处理链较重,不适合作为 G1 唯一主样本 | P0/P1 canonical/family | 待生成 |
| 7 | 95598工单明细表 | G3 | 主样本 | `paginated_enrichment` | 典型分页工单明细场景,存在主查询、分页、补数、导出链路,适合作为 G3 首个标准样本 | 分页补数、日区间滚动、SQL/去重/导出链 | P0-3 canonical + family 基线 | 待生成 |
| 8 | 95598、12398、流程超期风险工单明细 | G3 | 扩展样本 | `paginated_enrichment` 复合变体 | 同时覆盖多来源工单与超期风险链,能验证 G3 是否只会处理单一分页表 | 多入口 workflow、复合条件、主链与补链拆分 | P0-3 canonical + family 基线 | 待生成 |
## 5. 首轮执行顺序
首轮执行顺序固定如下,不跨序扩散:
1. 先生成 `台区线损大数据-月_周累计线损率统计分析`
2. 再生成 `白银线损周报`
3. 再生成 `线损同期差异报表`
4. 再进入 `G1``售电收入日统计``供电所线路电量统计`
5. `用户日电量监测` 仅作为 `G1` 边界补样,不先于前两个 `G1` 样本
6. 最后进入 `G3` 的两个工单类样本
这样安排的原因是:
1. `G2` 是否打透,决定当前链路是否真正具备 `tq` 级语义恢复能力
2. `G1` 更适合在 `G2` 形成稳定抽取口径后做规模化复制验证
3. `G3` workflow 更复杂,应该建立在前两组的证据层和契约层已经稳定之后
## 6. 每个样本生成后的必做检查
每个样本生成完后,必须按同一口径检查,不允许直接跳内网:
1. `sceneId / skillId` 是否稳定,不出现退化命名
2. `bootstrap domain` 是否落到真实业务系统,而不是误抽到 `localhost`
3. `workflow archetype` 是否正确,不把复杂链条误压成简单单请求
4. `request contract` 是否闭合,关键字段是否齐全
5. `response path / column defs / normalize rules` 是否闭合
6. `localhost:*` 是否被识别为宿主桥接依赖,而不是业务主链
7. readiness 是否可解释,失败时是否明确 fail-closed
## 7. 每类样本的通过标准
### 7.1 G2 通过标准
- 至少能恢复正确的 mode matrix
- 能区分主业务接口与宿主桥接依赖
- 生成结果在关键语义上达到 `tq-lineloss-report` 同等级参考水平
### 7.2 G1 通过标准
- 能稳定抽出查询参数、目标接口、响应路径、列定义、导出产物
- 同家族两个以上样本可以共用同一 archetype 与 gate 口径
### 7.3 G3 通过标准
- 能识别分页主链、补数链、导出链
- 证据不足时稳定阻断,不伪装为可运行 skill
## 8. 本轮产出物要求
本轮真实样本阶段至少产出以下文档或结果:
1. 本执行表
2. 首轮样本生成结果
3. 样本对标比对记录
4. 候选内网验证名单
5. 不通过样本的 blocker 归因
## 9. 下一步
按本表顺序进入下一步:
1. 使用当前转化链生成上述首轮样本 skill
2. 将生成结果与 `tq/canonical/family` 基线逐项对比
3. 输出首轮迁移与候选验证报告