feat: add generated scene skill platform hardening

This commit is contained in:
木炎
2026-04-21 23:19:06 +08:00
parent 118fc77935
commit 956f0c2b68
439 changed files with 61974 additions and 3645 deletions

View File

@@ -0,0 +1,304 @@
# G2 家族扩展整改计划
> **Status:** Draft
> **Date:** 2026-04-18
> **Author:** Codex
> **Upstream Inputs:**
> [2026-04-18-g2-remediation-plan.md](D:/data/ideaSpace/rust/sgClaw/claw-new/docs/superpowers/plans/2026-04-18-g2-remediation-plan.md)
> [2026-04-18-g2-second-round-remediation-report.md](D:/data/ideaSpace/rust/sgClaw/claw-new/docs/superpowers/reports/2026-04-18-g2-second-round-remediation-report.md)
## Plan Intent
本计划用于承接上一轮 `G2` 主样本整改结果,把目标从“修通 `tq` 主样本”推进到“扩展 `G2` 家族变体覆盖”。
上一轮已经证明:
1. `台区线损大数据-月_周累计线损率统计分析` 可以进入候选验证名单
2. `G2` 主样本链路已经具备可编译性
3. `白银线损周报`
4. `线损同期差异报表`
这两份剩余真实样本仍然稳定 `fail-close`
因此,本计划的核心目标不是重做上一轮主样本整改,而是补齐 `G2` 家族内部剩余两类变体的识别与合同恢复能力。
## Success Baseline
本计划完成后的最低成功口径固定为:
1. `白银线损周报` 不再因为 `G2` 合同缺失而直接阻断
2. `线损同期差异报表` 不再被粗暴套入 `tq` 主报表模板
3. 生成器能够明确区分至少两类新增 `G2` 家族子型
4. 新增子型具备各自最小可解释合同
5. 对证据不足的样本继续 `fail-close`
6. readiness 与“是否达到候选验证名单”保持一致
7. 输出第三轮 `G2` 家族扩展回归报告
## Scope Guardrails
执行过程中保持以下边界不变:
1. 不切换到 `G1`
2. 不切换到 `G3`
3. 不展开统一登录、隐藏域登录或宿主 transport 重构
4. 不扩展到 102 个全量场景
5. 不把本计划扩散成通用 scene skill 平台重写
6. 不否定上一轮 `tq` 主样本已经收敛的口径
## Target Samples
本计划只围绕以下三份 `G2` 家族真实样本执行:
1. `台区线损大数据-月_周累计线损率统计分析`
2. `白银线损周报`
3. `线损同期差异报表`
其中角色区分为:
1. `台区线损大数据-月_周累计线损率统计分析`
作用:`G2-A` 主样本基线,不允许回退
2. `白银线损周报`
作用:`G2-B` 周报单侧 mode 变体
3. `线损同期差异报表`
作用:`G2-C` 混合联动变体
## Family Expansion Hypothesis
基于上一轮报告,本计划先将 `G2` 家族收束为三类:
1. `G2-A`
定义:`tq` 主报表型,具备稳定的 `month/week + cols1/cols2 + mode-specific request/response`
当前状态:已进入候选验证名单
2. `G2-B`
定义:周报偏单侧 mode 变体,存在 `week/tjzq` 与线损主接口,但缺少与主样本同等级的双模式列合同
当前代表:`白银线损周报`
3. `G2-C`
定义:线损主链路与外部系统联动混合变体,存在线损接口和联动接口并存的情况
当前代表:`线损同期差异报表`
本计划的整改原则是:
1. 不强行把 `G2-B/G2-C` 编造成 `G2-A`
2. 先把三类子型边界立住
3. 再让每类子型各自拥有最小合同
## Workstreams
本计划拆为五条工作流:
1. `WS1` G2 子型分层与判定收束
2. `WS2` G2-B 周报变体合同补齐
3. `WS3` G2-C 混合联动变体隔离
4. `WS4` G2 家族 readiness 分级重整
5. `WS5` 真实样本第三轮回归与报告
## Phase Overview
本计划按四个阶段推进:
1. Phase 0冻结家族扩展目标
2. Phase 1建立 `G2-A/G2-B/G2-C` 子型边界
3. Phase 2分别补齐 `G2-B/G2-C` 最小合同
4. Phase 3回归三份真实样本并输出扩展报告
执行顺序固定为:
`Phase 0 -> Phase 1 -> Phase 2 -> Phase 3`
## Phase 0冻结扩展目标
### Objective
把上一轮已经收敛出来的家族事实冻结下来,避免再次把问题表述成“主样本没修好”。
### Tasks
1. 固化 `G2-A` 已达标口径
2. 固化 `G2-B``G2-C` 的直接 blocker
3. 固化本计划只补家族扩展,不回退主样本链路
### Exit Criteria
1. `tq` 主样本被视为基线,不再作为待整改对象
2. 家族扩展问题被明确表述为“变体支持缺失”
## Phase 1建立子型边界
### Objective
让系统能区分 `G2-A/G2-B/G2-C`,而不是所有 `G2` 一律走同一套路。
### WS1G2 子型分层与判定收束
#### Task 1
审计当前 `G2` 真实样本信号差异,明确以下边界:
1. 哪些信号属于 `G2-A`
2. 哪些信号属于 `G2-B`
3. 哪些信号属于 `G2-C`
#### Task 2
`G2` 增加子型判定规则,至少能区分:
1. 双模式主报表型
2. 周报单侧 mode 型
3. 混合联动型
#### Task 3
补充 fixture 与回归测试,证明:
1. `G2-A` 不回退
2. `G2-B` 不再误套 `G2-A`
3. `G2-C` 不再误套 `G2-A`
### Phase 1 Exit Criteria
1. `G2` 家族内部已可分层
2. 生成路径不再默认所有 `G2` 都是 `tq` 主报表
## Phase 2补齐变体最小合同
### Objective
分别为 `G2-B``G2-C` 建立“足够小但可解释”的合同。
### WS2G2-B 周报变体合同补齐
#### Task 4
定义 `G2-B` 的最小合同,至少包括:
1. 主 mode 或主周期字段
2. 对应 request template
3. 对应 response path
4. 对应 column/required fields
#### Task 5
修改 analyzer / generator / scene ir 组装逻辑,使 `白银线损周报` 能输出非空合同,而不是继续因合同缺失直接阻断。
#### Task 6
新增或更新测试,证明 `G2-B` 可以独立成立,不依赖 `month/week` 双模式完整结构。
### WS3G2-C 混合联动变体隔离
#### Task 7
审计 `线损同期差异报表` 中:
1. 线损主链路
2. 同期系统联动链路
3. 哪一部分属于主报表合同
#### Task 8
`G2-C` 建立隔离规则,避免混合联动接口污染主报表生成。
#### Task 9
定义 `G2-C` 的最小可编译合同,允许:
1. 主链路进入候选验证
2. 联动链路作为风险或扩展证据保留
而不是全部混在一起后直接失败。
#### Task 10
新增或更新测试,证明 `G2-C` 至少能稳定输出“主链路 + 联动风险”的结构化结果。
### WS4G2 家族 readiness 分级重整
#### Task 11
`G2-A/G2-B/G2-C` 增加子型级 readiness gate。
#### Task 12
调整 readiness 评级逻辑,保证:
1. `G2-A` 满足完整双模式合同时可以进入 `A`
2. `G2-B` 满足其最小合同时可以进入候选验证等级
3. `G2-C` 若仅主链路闭合,也能获得可解释等级
4. 证据不足时继续 `fail-close`
#### Task 13
补充测试,证明 readiness 不会再用 `G2-A` 的标准去误判全部 `G2` 子型。
### Phase 2 Exit Criteria
1. `G2-B` 具备最小合同
2. `G2-C` 具备隔离后的最小合同
3. readiness 与子型口径一致
## Phase 3真实样本第三轮回归
### Objective
基于扩展后的家族能力,重新回归三份真实样本并输出正式结论。
### WS5真实样本第三轮回归与报告
#### Task 14
重新生成以下三份真实样本:
1. `台区线损大数据-月_周累计线损率统计分析`
2. `白银线损周报`
3. `线损同期差异报表`
#### Task 15
按统一口径对比:
1. 子型判定
2. bootstrap
3. request contract
4. response / column / normalize contract
5. readiness
6. 是否进入候选验证名单
#### Task 16
输出第三轮 `G2` 家族扩展整改报告,至少说明:
1. `G2-A` 是否保持稳定
2. `G2-B` 是否进入候选验证名单
3. `G2-C` 是否进入候选验证名单或仍需 fail-close
4. 剩余 blocker 是否已经从“主样本不可生成”转移为“少数变体待扩展”
### Deliverables
1. `G2` 家族扩展回归测试
2. `G2-B/G2-C` 对应 fixture
3. 第三轮真实样本生成结果
4. 第三轮 `G2` 家族扩展整改报告
### Acceptance Criteria
1. `G2-A` 不回退
2. `G2-B` 至少达到可解释合同或候选验证等级
3. `G2-C` 至少达到主链路隔离成功,不能继续被整包噪声污染
4. 三份样本不再被单一 `G2-A` 模型粗暴处理
## File-Level Targets
本计划执行时,至少会触达以下资产类型:
1. `src/generated_scene/` 下的 analyzer / generator / readiness 相关实现
2. `tests/fixtures/generated_scene/` 下的 `G2-B/G2-C` fixture
3. `tests/` 下与 scene generator / readiness / family regression 相关的测试
4. `docs/superpowers/reports/` 下的第三轮家族扩展报告
## Completion Criteria
本计划完成的标志是:
1. `G2` 已从“单主样本修通”推进到“至少三类子型可区分”
2. `白银线损周报``线损同期差异报表` 不再只是被动 fail-close
3. 下一步是否继续扩到更多线损变体,可以建立在第三轮家族扩展报告上