模型稳定性 · 30 天结项总结

2026-05-14 ~ 06-12 · 口径:进行中项目 · 模型按请求(剔除难题 break)、PE 按 session · 数据连 insight 分析库逐条核对
结论:可结项 ✓
过去 30 天平台模型与 PE 执行整体稳定且持续向好:模型回复成功率 99.04%、PE 执行成功率 99.69%,三分之二的天失败率低于 1%。少数尖峰均为基础设施 / 上游模型波动,当天到 2–3 天恢复,无平台系统性缺陷

核心指标

模型回复成功率
99.04%
失败 2,246 / 233,311
PE 执行成功率
99.69%
失败 1,517 / 488,232 session
健康天占比 (<1%)
20 / 30
日均失败率 0.93%
尖峰故障
3 天
失败率 ≥ 2%
平均恢复 MTTR
≈ 1 天
单一成因当天修复
P90 耗时
7.5 分
从峰值 10.4 分下降

周趋势:失败率收敛 + 耗时下降

模型失败率% PE 失败率% P90 耗时(分,右轴)

30 天日趋势:多数天 <1%,3 个尖峰为孤立事件

模型失败率% PE 失败率% 尖峰故障

故障与恢复(MTTR)

日期峰值失败率主因恢复
5/17模型 2.87%某模型大面积空响应(200 条「未生成有效回复」)~2–3 天回落至 <0.5%
5/18模型 2.01%超时取消 57 + 安全拦截 22 + Agent 环境 16(混合)同一波,2–3 天
6/4模型 2.74% · PE 1.04%daytona 沙箱资源被数据合成挤占(沙箱失败 248)研发陈鹏当天修复,次日回 0.74%

单一成因故障当天即恢复(MTTR ≈ 1 天);多成因簇约 2–3 天。所有尖峰均属基础设施或上游模型波动。

成因结构

30 天失败几乎全部来自:

  • Agent / 沙箱基础设施:daytona 资源挤占、harbor 容器异常
  • 上游模型波动:空响应、限流(Qwen 429)、Gemini 空响应

均为外部 / 上游因素,非平台代码系统性缺陷

治理项目交付价值

  • 看板口径端到端统一,可对账
  • Agent 失败归类:未知错误 81.5% → 8.6%
  • 异常信号按失败率分级、下钻 / 详情可用
  • 结项分析中发现并修复 6/11 数据时序坑(失败率虚高 5% → 实为 0.9%)

看板从「对不上」到「可信、可对账、可驱动治理」——本报告即用它产出。

后续跟进(不阻塞结项)

数据来源:insight 分析库(data_label_platform_analytics)· 统计窗口 2026-05-14 ~ 06-12 · 生成于 2026-06-13 · 口径:进行中项目,模型按请求(剔除难题 break)、PE 按 session(NOT session_has_success)· 所有数值已连真库逐条核对。