Files
claw/docs/superpowers/reports/2026-04-18-first-real-scene-migration-execution-sheet.md

6.8 KiB
Raw Blame History

第一轮真实样本迁移与验证执行表

日期2026-04-18

上游设计:docs/superpowers/specs/2026-04-17-scene-skill-60-to-90-roadmap-design.md

上游计划:docs/superpowers/plans/2026-04-17-scene-skill-60-to-90-roadmap-plan.md

1. 文档目的

本表用于承接 60 -> 90 路线图进入真实样本阶段后的首轮落地动作。

这一轮不直接要求业务人员先去内网验证,而是先完成以下顺序:

  1. 从真实场景中收敛首轮样本
  2. 按当前 scene -> skill 转化链生成首轮 skill
  3. 将生成结果与 tq 级基线或当前 canonical/family 基线对比
  4. 只把通过结构、语义、readiness 初筛的候选物,送入后续内网验证

2. 选样原则

首轮样本选择遵循以下边界:

  1. 严格服从 plan 的主线范围,只覆盖 G1 + G2 + G3
  2. 优先选择业务结构清晰、家族代表性强、后续容易形成复用模板的场景
  3. G2 优先级最高,因为它直接决定是否能逼近 tq-lineloss-report 级别的业务语义恢复
  4. G1 首轮优先选择通用报表类,不优先选择强上传型、强附件型、强人工补录型
  5. G3 首轮优先选择分页明细补数链清晰的工单类
  6. 对发现“标题与真实脚本结构不一致”或“页面壳与业务链条错位”的场景,先降级为观察样本,不进入首轮主样本

3. 当前收敛结果

3.1 主样本家族

  • G2 多模式报表家族:先打透
  • G1 通用单页报表家族:先选干净样本验证可复制性
  • G3 分页明细补数家族:验证复杂 workflow 拆解与 fail-closed

3.2 暂不纳入首轮主样本的发现

  • 高低压新增报装容量月度统计表 当前页面标题、工作信息描述、脚本主体出现明显不一致,疑似存在页面壳复用或内容错配,不适合作为首轮基准样本。

4. 第一轮执行样本表

序号 场景名称 家族 首轮角色 初判 archetype 选入原因 主要风险 对标基线 当前状态
1 台区线损大数据-月_周累计线损率统计分析 G2 P0 主锚点 multi_mode_request.month_week_table 已知原始场景,可直接对标 tq-lineloss-report,也是当前 60->90 提升的核心样板 mode matrix、动态日期字段、localhost 与宿主桥接区分 tq-lineloss-report + P0 canonical 待生成
2 白银线损周报 G2 家族扩展样本 multi_mode_request 或同家族线损周报变体 与线损家族强相关,能验证 tq 样板是否可迁移到同家族其他周报 双系统登录态、周报聚合逻辑、内网 token 依赖 tq 家族语义基线 + P1 family 待生成
3 线损同期差异报表 G2 复杂扩展样本 multi_mode_request / secondary_request 复合链 能暴露“多系统对比、主请求 + 二次补链”的真实缺口,是 G2 向 90 分跨越的关键压力样本 secondary request、跨系统上下文、workflow 拆解 tq 家族语义基线 + P1 family 待生成
4 售电收入日统计 G1 主样本 single_request_table 倾向,但可能带明细遍历 属于典型报表生成场景,页面参数较集中,适合作为 G1 首轮切入 可能存在按用户逐条查询与汇总,不一定是纯单请求 P0/P1 canonical/family 待生成
5 供电所线路电量统计 G1 补充样本 single_request_table 到轻量 workflow 之间 具备日期范围、关键词、结果表格,能验证单页查询统计类的可抽象程度 可能依赖跨页执行与页面内表格汇总,而非纯 API 报表导出 P0/P1 canonical/family 待生成
6 用户日电量监测 G1 观察补样 single_request_table 外围变体 可覆盖上传/处理/导出型报表边界,用于验证 G1 主模板的外延边界 上传驱动、处理链较重,不适合作为 G1 唯一主样本 P0/P1 canonical/family 待生成
7 95598工单明细表 G3 主样本 paginated_enrichment 典型分页工单明细场景,存在主查询、分页、补数、导出链路,适合作为 G3 首个标准样本 分页补数、日区间滚动、SQL/去重/导出链 P0-3 canonical + family 基线 待生成
8 95598、12398、流程超期风险工单明细 G3 扩展样本 paginated_enrichment 复合变体 同时覆盖多来源工单与超期风险链,能验证 G3 是否只会处理单一分页表 多入口 workflow、复合条件、主链与补链拆分 P0-3 canonical + family 基线 待生成

5. 首轮执行顺序

首轮执行顺序固定如下,不跨序扩散:

  1. 先生成 台区线损大数据-月_周累计线损率统计分析
  2. 再生成 白银线损周报
  3. 再生成 线损同期差异报表
  4. 再进入 G1售电收入日统计供电所线路电量统计
  5. 用户日电量监测 仅作为 G1 边界补样,不先于前两个 G1 样本
  6. 最后进入 G3 的两个工单类样本

这样安排的原因是:

  1. G2 是否打透,决定当前链路是否真正具备 tq 级语义恢复能力
  2. G1 更适合在 G2 形成稳定抽取口径后做规模化复制验证
  3. G3 workflow 更复杂,应该建立在前两组的证据层和契约层已经稳定之后

6. 每个样本生成后的必做检查

每个样本生成完后,必须按同一口径检查,不允许直接跳内网:

  1. sceneId / skillId 是否稳定,不出现退化命名
  2. bootstrap domain 是否落到真实业务系统,而不是误抽到 localhost
  3. workflow archetype 是否正确,不把复杂链条误压成简单单请求
  4. request contract 是否闭合,关键字段是否齐全
  5. response path / column defs / normalize rules 是否闭合
  6. localhost:* 是否被识别为宿主桥接依赖,而不是业务主链
  7. readiness 是否可解释,失败时是否明确 fail-closed

7. 每类样本的通过标准

7.1 G2 通过标准

  • 至少能恢复正确的 mode matrix
  • 能区分主业务接口与宿主桥接依赖
  • 生成结果在关键语义上达到 tq-lineloss-report 同等级参考水平

7.2 G1 通过标准

  • 能稳定抽出查询参数、目标接口、响应路径、列定义、导出产物
  • 同家族两个以上样本可以共用同一 archetype 与 gate 口径

7.3 G3 通过标准

  • 能识别分页主链、补数链、导出链
  • 证据不足时稳定阻断,不伪装为可运行 skill

8. 本轮产出物要求

本轮真实样本阶段至少产出以下文档或结果:

  1. 本执行表
  2. 首轮样本生成结果
  3. 样本对标比对记录
  4. 候选内网验证名单
  5. 不通过样本的 blocker 归因

9. 下一步

按本表顺序进入下一步:

  1. 使用当前转化链生成上述首轮样本 skill
  2. 将生成结果与 tq/canonical/family 基线逐项对比
  3. 输出首轮迁移与候选验证报告