模型稳定性 · 30 天结项总结
2026-05-14 ~ 06-12 · 口径:进行中项目 · 模型按请求(剔除难题 break)、PE 按 session · 数据连 insight 分析库逐条核对
结论:可结项 ✓
过去 30 天平台模型与 PE 执行整体稳定且持续向好:模型回复成功率 99.04%、PE 执行成功率 99.69%,三分之二的天失败率低于 1%。少数尖峰均为基础设施 / 上游模型波动,当天到 2–3 天恢复,无平台系统性缺陷。
核心指标
模型回复成功率
99.04%
失败 2,246 / 233,311
PE 执行成功率
99.69%
失败 1,517 / 488,232 session
健康天占比 (<1%)
20 / 30
日均失败率 0.93%
周趋势:失败率收敛 + 耗时下降
模型失败率%
PE 失败率%
P90 耗时(分,右轴)
30 天日趋势:多数天 <1%,3 个尖峰为孤立事件
故障与恢复(MTTR)
| 日期 | 峰值失败率 | 主因 | 恢复 |
| 5/17 | 模型 2.87% | 某模型大面积空响应(200 条「未生成有效回复」) | ~2–3 天回落至 <0.5% |
| 5/18 | 模型 2.01% | 超时取消 57 + 安全拦截 22 + Agent 环境 16(混合) | 同一波,2–3 天 |
| 6/4 | 模型 2.74% · PE 1.04% | daytona 沙箱资源被数据合成挤占(沙箱失败 248) | 研发陈鹏当天修复,次日回 0.74% |
→ 单一成因故障当天即恢复(MTTR ≈ 1 天);多成因簇约 2–3 天。所有尖峰均属基础设施或上游模型波动。
成因结构
30 天失败几乎全部来自:
- Agent / 沙箱基础设施:daytona 资源挤占、harbor 容器异常
- 上游模型波动:空响应、限流(Qwen 429)、Gemini 空响应
均为外部 / 上游因素,非平台代码系统性缺陷。
治理项目交付价值
- 看板口径端到端统一,可对账
- Agent 失败归类:未知错误 81.5% → 8.6%
- 异常信号按失败率分级、下钻 / 详情可用
- 结项分析中发现并修复 6/11 数据时序坑(失败率虚高 5% → 实为 0.9%)
看板从「对不上」到「可信、可对账、可驱动治理」——本报告即用它产出。
后续跟进(不阻塞结项)
- PE 下钻对齐 session 级口径
- 下钻明细查询提速(走预聚合)
- 同步未齐时 ETL 自动重算近 1–2 天(需研发)
- unknown 残留错误补归类规则
数据来源:insight 分析库(data_label_platform_analytics)· 统计窗口 2026-05-14 ~ 06-12 · 生成于 2026-06-13 · 口径:进行中项目,模型按请求(剔除难题 break)、PE 按 session(NOT session_has_success)· 所有数值已连真库逐条核对。