6.8 KiB
6.8 KiB
第一轮真实样本迁移与验证执行表
日期:2026-04-18
上游设计:docs/superpowers/specs/2026-04-17-scene-skill-60-to-90-roadmap-design.md
上游计划:docs/superpowers/plans/2026-04-17-scene-skill-60-to-90-roadmap-plan.md
1. 文档目的
本表用于承接 60 -> 90 路线图进入真实样本阶段后的首轮落地动作。
这一轮不直接要求业务人员先去内网验证,而是先完成以下顺序:
- 从真实场景中收敛首轮样本
- 按当前 scene -> skill 转化链生成首轮 skill
- 将生成结果与
tq级基线或当前 canonical/family 基线对比 - 只把通过结构、语义、readiness 初筛的候选物,送入后续内网验证
2. 选样原则
首轮样本选择遵循以下边界:
- 严格服从 plan 的主线范围,只覆盖
G1 + G2 + G3 - 优先选择业务结构清晰、家族代表性强、后续容易形成复用模板的场景
G2优先级最高,因为它直接决定是否能逼近tq-lineloss-report级别的业务语义恢复G1首轮优先选择通用报表类,不优先选择强上传型、强附件型、强人工补录型G3首轮优先选择分页明细补数链清晰的工单类- 对发现“标题与真实脚本结构不一致”或“页面壳与业务链条错位”的场景,先降级为观察样本,不进入首轮主样本
3. 当前收敛结果
3.1 主样本家族
G2多模式报表家族:先打透G1通用单页报表家族:先选干净样本验证可复制性G3分页明细补数家族:验证复杂 workflow 拆解与 fail-closed
3.2 暂不纳入首轮主样本的发现
高低压新增报装容量月度统计表当前页面标题、工作信息描述、脚本主体出现明显不一致,疑似存在页面壳复用或内容错配,不适合作为首轮基准样本。
4. 第一轮执行样本表
| 序号 | 场景名称 | 家族 | 首轮角色 | 初判 archetype | 选入原因 | 主要风险 | 对标基线 | 当前状态 |
|---|---|---|---|---|---|---|---|---|
| 1 | 台区线损大数据-月_周累计线损率统计分析 | G2 | P0 主锚点 | multi_mode_request.month_week_table |
已知原始场景,可直接对标 tq-lineloss-report,也是当前 60->90 提升的核心样板 |
mode matrix、动态日期字段、localhost 与宿主桥接区分 | tq-lineloss-report + P0 canonical |
待生成 |
| 2 | 白银线损周报 | G2 | 家族扩展样本 | multi_mode_request 或同家族线损周报变体 |
与线损家族强相关,能验证 tq 样板是否可迁移到同家族其他周报 |
双系统登录态、周报聚合逻辑、内网 token 依赖 | tq 家族语义基线 + P1 family |
待生成 |
| 3 | 线损同期差异报表 | G2 | 复杂扩展样本 | multi_mode_request / secondary_request 复合链 |
能暴露“多系统对比、主请求 + 二次补链”的真实缺口,是 G2 向 90 分跨越的关键压力样本 | secondary request、跨系统上下文、workflow 拆解 | tq 家族语义基线 + P1 family |
待生成 |
| 4 | 售电收入日统计 | G1 | 主样本 | single_request_table 倾向,但可能带明细遍历 |
属于典型报表生成场景,页面参数较集中,适合作为 G1 首轮切入 |
可能存在按用户逐条查询与汇总,不一定是纯单请求 | P0/P1 canonical/family | 待生成 |
| 5 | 供电所线路电量统计 | G1 | 补充样本 | single_request_table 到轻量 workflow 之间 |
具备日期范围、关键词、结果表格,能验证单页查询统计类的可抽象程度 | 可能依赖跨页执行与页面内表格汇总,而非纯 API 报表导出 | P0/P1 canonical/family | 待生成 |
| 6 | 用户日电量监测 | G1 | 观察补样 | single_request_table 外围变体 |
可覆盖上传/处理/导出型报表边界,用于验证 G1 主模板的外延边界 | 上传驱动、处理链较重,不适合作为 G1 唯一主样本 | P0/P1 canonical/family | 待生成 |
| 7 | 95598工单明细表 | G3 | 主样本 | paginated_enrichment |
典型分页工单明细场景,存在主查询、分页、补数、导出链路,适合作为 G3 首个标准样本 | 分页补数、日区间滚动、SQL/去重/导出链 | P0-3 canonical + family 基线 | 待生成 |
| 8 | 95598、12398、流程超期风险工单明细 | G3 | 扩展样本 | paginated_enrichment 复合变体 |
同时覆盖多来源工单与超期风险链,能验证 G3 是否只会处理单一分页表 | 多入口 workflow、复合条件、主链与补链拆分 | P0-3 canonical + family 基线 | 待生成 |
5. 首轮执行顺序
首轮执行顺序固定如下,不跨序扩散:
- 先生成
台区线损大数据-月_周累计线损率统计分析 - 再生成
白银线损周报 - 再生成
线损同期差异报表 - 再进入
G1的售电收入日统计、供电所线路电量统计 用户日电量监测仅作为G1边界补样,不先于前两个G1样本- 最后进入
G3的两个工单类样本
这样安排的原因是:
G2是否打透,决定当前链路是否真正具备tq级语义恢复能力G1更适合在G2形成稳定抽取口径后做规模化复制验证G3workflow 更复杂,应该建立在前两组的证据层和契约层已经稳定之后
6. 每个样本生成后的必做检查
每个样本生成完后,必须按同一口径检查,不允许直接跳内网:
sceneId / skillId是否稳定,不出现退化命名bootstrap domain是否落到真实业务系统,而不是误抽到localhostworkflow archetype是否正确,不把复杂链条误压成简单单请求request contract是否闭合,关键字段是否齐全response path / column defs / normalize rules是否闭合localhost:*是否被识别为宿主桥接依赖,而不是业务主链- readiness 是否可解释,失败时是否明确 fail-closed
7. 每类样本的通过标准
7.1 G2 通过标准
- 至少能恢复正确的 mode matrix
- 能区分主业务接口与宿主桥接依赖
- 生成结果在关键语义上达到
tq-lineloss-report同等级参考水平
7.2 G1 通过标准
- 能稳定抽出查询参数、目标接口、响应路径、列定义、导出产物
- 同家族两个以上样本可以共用同一 archetype 与 gate 口径
7.3 G3 通过标准
- 能识别分页主链、补数链、导出链
- 证据不足时稳定阻断,不伪装为可运行 skill
8. 本轮产出物要求
本轮真实样本阶段至少产出以下文档或结果:
- 本执行表
- 首轮样本生成结果
- 样本对标比对记录
- 候选内网验证名单
- 不通过样本的 blocker 归因
9. 下一步
按本表顺序进入下一步:
- 使用当前转化链生成上述首轮样本 skill
- 将生成结果与
tq/canonical/family基线逐项对比 - 输出首轮迁移与候选验证报告