模型稳定性 · 30 天结项总结

2026-05-14 ~ 06-12 · 口径:进行中项目 · 模型按请求(剔除难题 break)、PE 按 session · 数据连 insight 分析库逐条核对

结论:可结项 ✓

过去 30 天平台模型与 PE 执行整体稳定且持续向好:模型回复成功率 99.04%、PE 执行成功率 99.69%,三分之二的天失败率低于 1%。少数尖峰均为基础设施 / 上游模型波动,当天到 2–3 天恢复,无平台系统性缺陷。

核心指标

模型回复成功率

99.04%

失败 2,246 / 233,311

PE 执行成功率

99.69%

失败 1,517 / 488,232 session

健康天占比 (<1%)

20 / 30

日均失败率 0.93%

尖峰故障

3 天

失败率 ≥ 2%

平均恢复 MTTR

≈ 1 天

单一成因当天修复

P90 耗时

7.5 分

从峰值 10.4 分下降

周趋势:失败率收敛 + 耗时下降

模型失败率% PE 失败率% P90 耗时(分,右轴)

30 天日趋势:多数天 <1%,3 个尖峰为孤立事件

模型失败率% PE 失败率% 尖峰故障

故障与恢复(MTTR)

日期	峰值失败率	主因	恢复
5/17	模型 2.87%	某模型大面积空响应(200 条「未生成有效回复」)	~2–3 天回落至 <0.5%
5/18	模型 2.01%	超时取消 57 + 安全拦截 22 + Agent 环境 16(混合)	同一波,2–3 天
6/4	模型 2.74% · PE 1.04%	daytona 沙箱资源被数据合成挤占(沙箱失败 248)	研发陈鹏当天修复,次日回 0.74%

→ 单一成因故障当天即恢复(MTTR ≈ 1 天);多成因簇约 2–3 天。所有尖峰均属基础设施或上游模型波动。

成因结构

30 天失败几乎全部来自:

Agent / 沙箱基础设施:daytona 资源挤占、harbor 容器异常
上游模型波动:空响应、限流(Qwen 429)、Gemini 空响应

均为外部 / 上游因素,非平台代码系统性缺陷。

治理项目交付价值

看板口径端到端统一,可对账
Agent 失败归类:未知错误 81.5% → 8.6%
异常信号按失败率分级、下钻 / 详情可用
结项分析中发现并修复 6/11 数据时序坑(失败率虚高 5% → 实为 0.9%)

看板从「对不上」到「可信、可对账、可驱动治理」——本报告即用它产出。

后续跟进(不阻塞结项)

PE 下钻对齐 session 级口径
下钻明细查询提速(走预聚合)
同步未齐时 ETL 自动重算近 1–2 天(需研发)
unknown 残留错误补归类规则

数据来源:insight 分析库(data_label_platform_analytics)· 统计窗口 2026-05-14 ~ 06-12 · 生成于 2026-06-13 · 口径:进行中项目,模型按请求(剔除难题 break)、PE 按 session(NOT session_has_success)· 所有数值已连真库逐条核对。