6.2 KiB
6.2 KiB
G1-E P0 Validation Report
Date: 2026-04-18 Scope:
docs/superpowers/plans/2026-04-18-g1-e-light-enrichment-report-plan.mdPhase 1 -> Phase 3 Fixed Sample:
D:\desk\智能体资料\全量业务场景\一平台场景\高低压新增报装容量月度统计表
1. Conclusion
本轮 G1-E P0 验证已通过。
最终结果已经从误判的 page_state_eval 收敛为正式的 single_request_enrichment,并且真实样本生成结果中已经同时恢复出:
- 主请求
- 补查请求集合
- 合并/汇总规则
这说明本轮 plan 的核心目标已经达成:系统不再只会“识别并拦截低质量生成物”,而是已经能对该 P0 样本恢复出可编译的 G1-E 三段式语义。
2. Validation Inputs
真实样本生成命令:
cargo run --bin sg_scene_generate -- --source-dir "D:/desk/智能体资料/全量业务场景/一平台场景/高低压新增报装容量月度统计表" --scene-id g1e-capacity-monthly --scene-name "高低压新增报装容量月度统计表" --scene-kind report_collection --output-root "D:/data/ideaSpace/rust/sgClaw/claw-new/examples/g1e_p0_validation"
关键输出位置:
examples/g1e_p0_validation/skills/g1e-capacity-monthly/references/generation-report.jsonexamples/g1e_p0_validation/skills/g1e-capacity-monthly/references/generation-report.mdexamples/g1e_p0_validation/skills/g1e-capacity-monthly/scripts/collect_g1e_capacity_monthly.js
3. Before vs After
整改前:
workflowArchetype = page_state_evalreadiness.notes中记录的是workflow_archetype=page_state_eval- 生成脚本走的是
page_state_eval/ 简化脚本路径 - 虽然已经提取到
mainRequest / enrichmentRequests / mergePlan,但 compiler 没有真正走G1-E专用编译路径
整改后:
workflowArchetype = single_request_enrichmentgeneration-report.md明确显示Workflow archetype: single_request_enrichment- 生成脚本已经包含:
const MAIN_REQUEST =const ENRICHMENT_REQUESTS =const MERGE_PLAN =
readiness.notes已更新为workflow_archetype=single_request_enrichment
4. Recovered Semantics
4.1 Main Request
已恢复主请求:
- Endpoint:
getWkorderAll - URL:
http://yxgateway.gs.sgcc.com.cn/emss-cmnf-common-front/member/workOrderQuery/getWkorderAll - Request template:
pageNo = 1pageSize = 1
- Response path:
data
4.2 Enrichment Requests
已恢复补查请求:
queryElectCustInfoqueryBusAcptgetBatchPerCust97
其中补查入参绑定已经恢复出:
appNo = ${row.wkOrderNo}getBatchPerCust97额外固定参数:baseNewFlag = "01"pageNo = 1pageSize = 20
4.3 Merge Plan
已恢复汇总语义:
- Join key:
wkOrderNo - Group rule:
group_by:countyCodeName - 汇总附加规则:
append_total_rowcompute_share_columns
- 聚合规则:
com:hightVolTotalThisMonth,hightPressureTotalThisMonthcom:lowVolTotalThisMonth,lowPressureTotalThisMonthbatchCom:lowVolTotalThisMonth,lowPressureTotalThisMonthcom:hightVolTotalOtherMonth,hightPressureTotalOtherMonthcom:lowVolTotalOtherMonth,lowPressureTotalOtherMonthbatchCom:lowVolTotalOtherMonth,lowPressureTotalOtherMonth
4.4 Output Columns
最终输出列已非空,且恢复出完整统计口径,包含:
indexcountyCodeNamehightPressureTotalOtherMonthhightVolTotalOtherMonthlowPressureTotalOtherMonthlowVolTotalOtherMonthotherMonthSharehightPressureTotalThisMonthhightVolTotalThisMonthlowPressureTotalThisMonthlowVolTotalThisMonththisMonthShareyearHightPressureTotalyearHightVolTotalyearLowPressureTotalyearLowVolTotalyearShare
5. Root Cause And Fix
本次误判的直接原因不是证据缺失,而是 archetype 分类优先级错误。
真实样本同时存在以下噪音信号:
branch_fields=reportType, mode, monthfilters=res.status == 200- 常见分页字段
旧逻辑要求:
- 只有在
!has_branch_fields时,才允许判为SingleRequestEnrichment
这导致真实样本即使已经同时满足:
has_g1e_main_endpointhas_g1e_enrichmenthas_g1e_merge_signal
仍然会因为存在 mode/reportType/month 噪音而失去 G1-E 判定资格,随后又被 status 噪音吸入 page_state_eval。
本次修正后的口径是:
- 只要
G1-E三段式核心证据齐备,就优先判为single_request_enrichment - 不再因为一般性的
branch field噪音退化为page_state_eval
6. Test And Verification Record
本轮执行的定向验证:
cargo test --test scene_generator_testcargo test --test scene_generator_modes_testcargo test --test scene_generator_html_testnode --test tests/scene_generator_llm_test.js
结果:
- 以上
scene generator定向测试全部通过 - 真实 P0 样本复跑成功
补充说明:
cargo test --workspace中存在两条与本次G1-Eplan 无关的既有失败:service::server::tests::deterministic_bootstrap_target_uses_plan_target_urlservice::server::tests::bootstrap_target_precedence_matrix_covers_page_context_deterministic_skill_and_fallback
- 这两条失败不属于本次 plan 改动引入,也不阻塞本次
G1-EP0 验收
7. Acceptance Check
对照 plan 的 Phase 3 退出标准,当前状态如下:
- 主请求、补查请求、合并规则均已稳定恢复
- 结果不再是
params=[] / requestEntries=[] / columnDefs=[]的空壳生成物 - archetype 已不再退化为
page_state_eval - compiler 已实际走入
G1-E专用路径
结论:
docs/superpowers/plans/2026-04-18-g1-e-light-enrichment-report-plan.md的 Phase 1 -> Phase 3 已完成
8. Remaining Gap
本轮完成的是 G1-E P0 最小闭环,不代表已经达到“业务结果 100% 等价于人工高质量 skill”。
当前仍然保留的后续空间是:
- 进一步提升字段中文标题编码质量
- 继续验证
G1-E第二个真实样本是否能复用同一语义恢复路径 - 继续把
G1-E与G6/G7/G8的越界判定做得更稳