admin/claw

Fork 0

Files

木炎 956f0c2b68 feat: add generated scene skill platform hardening

2026-04-21 23:19:06 +08:00

6.8 KiB

Raw Blame History

第一轮真实样本迁移与验证执行表

日期：2026-04-18

上游设计：docs/superpowers/specs/2026-04-17-scene-skill-60-to-90-roadmap-design.md

上游计划：docs/superpowers/plans/2026-04-17-scene-skill-60-to-90-roadmap-plan.md

1. 文档目的

本表用于承接 60 -> 90 路线图进入真实样本阶段后的首轮落地动作。

这一轮不直接要求业务人员先去内网验证，而是先完成以下顺序：

从真实场景中收敛首轮样本
按当前 scene -> skill 转化链生成首轮 skill
将生成结果与 tq 级基线或当前 canonical/family 基线对比
只把通过结构、语义、readiness 初筛的候选物，送入后续内网验证

2. 选样原则

首轮样本选择遵循以下边界：

严格服从 plan 的主线范围，只覆盖 G1 + G2 + G3
优先选择业务结构清晰、家族代表性强、后续容易形成复用模板的场景
G2 优先级最高，因为它直接决定是否能逼近 tq-lineloss-report 级别的业务语义恢复
G1 首轮优先选择通用报表类，不优先选择强上传型、强附件型、强人工补录型
G3 首轮优先选择分页明细补数链清晰的工单类
对发现“标题与真实脚本结构不一致”或“页面壳与业务链条错位”的场景，先降级为观察样本，不进入首轮主样本

3. 当前收敛结果

3.1 主样本家族

G2 多模式报表家族：先打透
G1 通用单页报表家族：先选干净样本验证可复制性
G3 分页明细补数家族：验证复杂 workflow 拆解与 fail-closed

3.2 暂不纳入首轮主样本的发现

高低压新增报装容量月度统计表 当前页面标题、工作信息描述、脚本主体出现明显不一致，疑似存在页面壳复用或内容错配，不适合作为首轮基准样本。

4. 第一轮执行样本表

序号	场景名称	家族	首轮角色	初判 archetype	选入原因	主要风险	对标基线	当前状态
1	台区线损大数据-月_周累计线损率统计分析	G2	P0 主锚点	`multi_mode_request.month_week_table`	已知原始场景，可直接对标 `tq-lineloss-report`，也是当前 60->90 提升的核心样板	mode matrix、动态日期字段、localhost 与宿主桥接区分	`tq-lineloss-report` + P0 canonical	待生成
2	白银线损周报	G2	家族扩展样本	`multi_mode_request` 或同家族线损周报变体	与线损家族强相关，能验证 `tq` 样板是否可迁移到同家族其他周报	双系统登录态、周报聚合逻辑、内网 token 依赖	`tq` 家族语义基线 + P1 family	待生成
3	线损同期差异报表	G2	复杂扩展样本	`multi_mode_request` / `secondary_request` 复合链	能暴露“多系统对比、主请求 + 二次补链”的真实缺口，是 G2 向 90 分跨越的关键压力样本	secondary request、跨系统上下文、workflow 拆解	`tq` 家族语义基线 + P1 family	待生成
4	售电收入日统计	G1	主样本	`single_request_table` 倾向，但可能带明细遍历	属于典型报表生成场景，页面参数较集中，适合作为 `G1` 首轮切入	可能存在按用户逐条查询与汇总，不一定是纯单请求	P0/P1 canonical/family	待生成
5	供电所线路电量统计	G1	补充样本	`single_request_table` 到轻量 workflow 之间	具备日期范围、关键词、结果表格，能验证单页查询统计类的可抽象程度	可能依赖跨页执行与页面内表格汇总，而非纯 API 报表导出	P0/P1 canonical/family	待生成
6	用户日电量监测	G1	观察补样	`single_request_table` 外围变体	可覆盖上传/处理/导出型报表边界，用于验证 G1 主模板的外延边界	上传驱动、处理链较重，不适合作为 G1 唯一主样本	P0/P1 canonical/family	待生成
7	95598工单明细表	G3	主样本	`paginated_enrichment`	典型分页工单明细场景，存在主查询、分页、补数、导出链路，适合作为 G3 首个标准样本	分页补数、日区间滚动、SQL/去重/导出链	P0-3 canonical + family 基线	待生成
8	95598、12398、流程超期风险工单明细	G3	扩展样本	`paginated_enrichment` 复合变体	同时覆盖多来源工单与超期风险链，能验证 G3 是否只会处理单一分页表	多入口 workflow、复合条件、主链与补链拆分	P0-3 canonical + family 基线	待生成

5. 首轮执行顺序

首轮执行顺序固定如下，不跨序扩散：

先生成 台区线损大数据-月_周累计线损率统计分析
再生成 白银线损周报
再生成 线损同期差异报表
再进入 G1 的 售电收入日统计、供电所线路电量统计
用户日电量监测 仅作为 G1 边界补样，不先于前两个 G1 样本
最后进入 G3 的两个工单类样本

这样安排的原因是：

G2 是否打透，决定当前链路是否真正具备 tq 级语义恢复能力
G1 更适合在 G2 形成稳定抽取口径后做规模化复制验证
G3 workflow 更复杂，应该建立在前两组的证据层和契约层已经稳定之后

6. 每个样本生成后的必做检查

每个样本生成完后，必须按同一口径检查，不允许直接跳内网：

sceneId / skillId 是否稳定，不出现退化命名
bootstrap domain 是否落到真实业务系统，而不是误抽到 localhost
workflow archetype 是否正确，不把复杂链条误压成简单单请求
request contract 是否闭合，关键字段是否齐全
response path / column defs / normalize rules 是否闭合
localhost:* 是否被识别为宿主桥接依赖，而不是业务主链
readiness 是否可解释，失败时是否明确 fail-closed

7. 每类样本的通过标准

7.1 G2 通过标准

至少能恢复正确的 mode matrix
能区分主业务接口与宿主桥接依赖
生成结果在关键语义上达到 tq-lineloss-report 同等级参考水平

7.2 G1 通过标准

能稳定抽出查询参数、目标接口、响应路径、列定义、导出产物
同家族两个以上样本可以共用同一 archetype 与 gate 口径

7.3 G3 通过标准

能识别分页主链、补数链、导出链
证据不足时稳定阻断，不伪装为可运行 skill

8. 本轮产出物要求

本轮真实样本阶段至少产出以下文档或结果：

本执行表
首轮样本生成结果
样本对标比对记录
候选内网验证名单
不通过样本的 blocker 归因

9. 下一步

按本表顺序进入下一步：

使用当前转化链生成上述首轮样本 skill
将生成结果与 tq/canonical/family 基线逐项对比
输出首轮迁移与候选验证报告

6.8 KiB Raw Blame History Unescape Escape