2016年加入美团点评,美团外卖技术保障组负责人,现正在围绕业务进行稳定性评估、实时监控、异常检测与故障诊断等方向的建设。
2016年加入美团点评,美团外卖技术保障组负责人,现正在围绕业务进行稳定性评估、实时监控、异常检测与故障诊断等方向的建设。
外卖业务持续高速成长,业务迭代快,逻辑复杂,关联服务多。如何快速准确识别系统各项指标的异常,发现问题根因,并快速解决显得尤为重要。在常规业务指标监控工作中需要手动维护上万业务指标报警阈值,不仅成本高,效果也不佳。我们尝试使用“形变分析模型”对业务指标自动进行异常检测,无需人工设置阈值。在实践过程中与外卖全链路压测,服务保护等稳定性保障系统进行内联,目前已覆盖绝大部分美团外卖C端核心业务指标,效果不错。
演讲提纲:
1、美团外卖业务稳定性建设现状
2、形变分析模型介绍
3、形变分析模型和其他异常检测模型对比
4、业务异常检测系统的整体设计
5、与全链路压测和服务保护系统内联
6、落地情况以及实践效果
听众受益点: