8.5 KiB
G2 家族整改计划
Status: Draft Date: 2026-04-18 Author: Codex Upstream Spec: 2026-04-18-g2-remediation-design.md
Plan Intent
本计划用于把 G2 家族整改设计拆解为可执行任务,目标是把当前线损多模式报表家族从“信号能抓到但主链重建失败”,推进到“至少第一份样本达到候选验证门槛”。
本计划严格限定在 G2 家族整改,不扩展到:
G1G3- 更大范围真实场景迁移
- 登录恢复、宿主协议重构或运行时 transport 改造
Success Baseline
整改阶段的最低成功口径固定为:
台区线损大数据-月_周累计线损率统计分析不再坍缩为paginated_enrichment- 至少该样本能生成
multi_mode_request结构 bootstrap落到线损主业务承载面modes至少恢复month与week- mode-specific
request/response/column/normalize合同不再为空 - readiness 不再在核心合同缺失时给出虚高
A - 样本结果达到“可进入候选验证”门槛
Scope Guardrails
执行过程中保持以下边界不变:
- 不切换到
G1/G3样本执行 - 不继续补更多同类
G2观察样本 - 不在本计划中展开内网人工验证
- 不在本计划中处理统一登录与隐藏域登录恢复
- 不发散到 scene skill 平台通用重构
Target Samples
本计划整改与回归只围绕以下三份 G2 样本:
台区线损大数据-月_周累计线损率统计分析白银线损周报线损同期差异报表
对应产物路径:
examples/real_scene_batch_round1/skills/real-tq-lineloss-report-r1examples/real_scene_batch_round1/skills/real-baiyin-lineloss-weekly-r1examples/real_scene_batch_round1/skills/real-lineloss-period-diff-r1
Workstreams
本计划拆为五条工作流,与上游 spec 一一对应:
WS1G2 archetype 纠偏WS2bootstrap 纠偏WS3mode contract 重建WS4endpoint 去污染WS5readiness 收紧
Phase Overview
本计划按四个阶段推进:
- Phase 0:冻结整改基线
- Phase 1:修正识别与选择
- Phase 2:重建
G2合同 - Phase 3:回归真实样本并产出整改报告
执行顺序固定为:
Phase 0 -> Phase 1 -> Phase 2 -> Phase 3
其中 Phase 1 先于 Phase 2,避免在错误 archetype 和错误 bootstrap 上继续堆模板逻辑。
Phase 0:冻结整改基线
Objective
把当前 G2 家族首轮 blocker、对标口径和验收门槛冻结,避免整改过程中边界漂移。
Tasks
- 固化三份
G2样本的当前失败画像 - 固化
tq-lineloss-report作为G2主锚点参考 - 固化
G2候选验证门槛 - 固化整改阶段只围绕
G2的边界
Deliverables
- 本计划
- 已存在的
G2blocker 汇总 - 已存在的第一轮迁移与候选验证报告
Exit Criteria
- 后续执行不再追加同类
G2观察样本 - 不再用“先去内网试试”替代整改闭环
Phase 1:修正识别与选择
Objective
先把 G2 主链判定修正过来,解决 archetype、bootstrap 与 endpoint 污染这三个上游问题。
WS1:G2 Archetype Rectification
Task 1
审计当前 G2 archetype 误判来源,确认:
- 哪些分页信号在夺权
- 哪些 mode 信号没有进入主判定
- 当前
multi_mode_request与paginated_enrichment的优先级冲突点在哪里
Task 2
修改 G2 archetype 判定逻辑,使以下信号在 G2 中具备更高权重:
month/weekmodetjzq- 同一场景内多组线损接口
- 模式切换分支字段
Task 3
新增或更新回归测试,证明:
- 当前
G2fixture 不再判成paginated_enrichment G2相关修正不会误伤现有G3fixture
WS2:Bootstrap Rectification
Task 4
审计当前 bootstrap 选择逻辑,确认为什么三份样本都稳定落到 20.77.115.36:31051。
Task 5
为 G2 引入更严格的 bootstrap 选择约束:
- 优先真实线损业务承载页
- 排除页面壳入口与错误主域
- 继续排除
localhost:*、第三方库 URL、静态资源 URL
Task 6
新增或更新测试,证明:
G2主样本 bootstrap 不再落到错误入口localhost:*仍只作为宿主依赖证据保留
WS4:Endpoint Purification
Task 7
审计当前 endpoint 提取污染来源,明确以下类别如何被误收进业务候选:
- 第三方依赖库
- 文档外链
- 静态资源 URL
- 其他业务系统遗留接口
Task 8
收紧 endpoint 候选过滤与排序规则,使 G2 样本中:
- 线损主业务接口排在前列
- 外链与依赖库 URL 不再进入主业务候选
- 其他业务系统 endpoint 不再轻易抢占主链
Task 9
补充测试,证明:
G2主 endpoint 排序明显改善- 噪声 endpoint 不再污染生成主脚本
Phase 1 Exit Criteria
G2fixture archetype 判定修正G2bootstrap 选择修正G2endpoint 候选排序修正
Phase 2:重建 G2 合同
Objective
在主链判定正确后,恢复 G2 必需的 mode-specific 合同与更严格的 readiness。
WS3:Mode Contract Reconstruction
Task 10
为 G2 定义最小 mode contract,至少包括:
modes[]defaultModemodeSwitchField- per-mode
requestTemplate - per-mode
responsePath - per-mode
columnDefs - per-mode
normalizeRules
Task 11
修改 Scene IR 组装或生成逻辑,让 G2 样本在证据充分时真正输出 modes[],而不是只保留空壳默认字段。
Task 12
修改 G2 生成脚本模板或编译路径,避免继续退化成通用:
paginate -> secondary_request -> filter
要求生成结果能体现:
month模式week模式- 不同模式的请求差异
- 不同模式的列差异
Task 13
新增或更新测试,证明:
台区线损大数据-月_周累计线损率统计分析可输出非空modes- 至少一个
G2fixture 恢复出 mode-specific contract
WS5:Readiness Tightening
Task 14
为 G2 新增或收紧 gate,至少覆盖:
g2_archetype_resolvedg2_bootstrap_resolvedg2_modes_presentg2_request_contract_completeg2_response_contract_complete
Task 15
调整 readiness 评级逻辑,保证以下情况不再给出高等级:
modes = []requestTemplate = nullcolumnDefs = []- archetype 误判
Task 16
新增或更新测试,证明:
- 不闭合
G2样本会被降级或阻断 - readiness 与候选验证门槛一致
Phase 2 Exit Criteria
- 至少
G2主样本拥有可解释的 mode contract - readiness 不再虚高
G2生成结果在结构上具备进入候选门槛的可能
Phase 3:回归真实样本并产出整改报告
Objective
在整改完成后,重新生成三份 G2 真实样本,并输出第二轮正式结论。
Tasks
Task 17
重新生成以下三份 G2 样本:
台区线损大数据-月_周累计线损率统计分析白银线损周报线损同期差异报表
Task 18
按与第一轮完全一致的口径,对比以下项目:
- archetype
- bootstrap
- modes
- request contract
- response / column / normalize contract
- readiness
Task 19
输出整改后的第二轮报告,至少包含:
- 哪些 blocker 被修掉
- 哪些 blocker 仍存在
- 哪些样本进入候选验证名单
- 哪些样本仍需 fail-closed
Deliverables
- 第二轮
G2真实样本生成结果 - 第二轮
G2整改回归报告 - 更新后的候选验证名单
Acceptance Criteria
台区线损大数据-月_周累计线损率统计分析至少进入候选验证名单- 三份样本不再统一坍缩成
paginated_enrichment - readiness 与真实业务闭合程度基本一致
File-Level Targets
本计划执行时,至少会触达以下类型资产:
src/generated_scene/下的 analyzer / generator / readiness 相关实现tests/fixtures/generated_scene/下的G2fixture 或 canonical 资产tests/下与 scene generator / canonical / readiness 相关的回归测试docs/superpowers/reports/下的第二轮整改报告
Completion Criteria
本计划完成的标志是:
G2主样本达到候选验证门槛G2家族 blocker 从“稳定复现”转为“部分修复且可解释”- 后续是否切换到
G1/G3,可以建立在整改后二轮报告上,而不是继续依赖第一轮失败画像