AIOps对报警架构的挑战

所属专题:提升效率的 AIOps

所属领域:

嘉宾 : 周伟 | 百度资深研发工程师

会议室 : 第五会议厅A

讲师介绍

专题演讲嘉宾:周伟

百度 资深研发工程师

2015年加入百度,目前负责百度Noah监控报警通告系统、通告平台;在精准告警、精准通告、报警收敛、公/私有云监控系统等方向具有广泛的实践经验。

专题演讲嘉宾:范月林

百度 资深研发工程师

2014年硕士毕业于北京邮电大学,随后加入IBM,负责高性能计算中间件的研发工作。2017年加入百度,负责Noah报警系统的研发设计工作,在报警事件管理、报警合并&渲染、故障Oncall等领域有丰富实战经验。

议题介绍

地点:第五会议厅A
所属专题:提升效率的 AIOps
所属领域:

演讲:AIOps对报警架构的挑战

监控报警是故障发现的重要一环,也是百度在AIOps方向的第一个切入方向,目前百度AIOps在监控报警方面已经孵化出两个应用场景:智能异常检测和智能报警合并。

如何支撑AIOps算法在监控告警系统的快速落地并产生业务价值,这对监控告警架构提出了很大的挑战!

本次分享将重点介绍百度监控告警系统在落地AIOps过程中遇到的架构挑战以及相应的解决方案。

百度监控告警系统主要由异常检测、事件管理、通告发送三个子系统组成:

  1. 在异常检测部分,我们将介绍如何支撑AIOps算法的离线实验、近线测试、在线运行需求,以及处理多维度异常判断过程中遇到的难点和解决思路
  2. 在事件管理部分,我们将介绍基于状态机的事件管理模型如何能够防止线上故障被遗漏
  3. 在通告发送部分,我们将介绍如何利用智能报警合并算法来应对报警风暴,以及如何保障通告消息的零丢失

最后,将总结监控报警系统在落地AIOps算法过程中的实践经验,以及我们对AIOps的思考。

演讲提纲:

  1. 落地AIOps对报警架构的挑战
  2. 报警系统的业务模型
  3. 异常判断子系统
    • 智能异常检测的研发流程
    • 多维度异常判断模型
    • 离线开发框架和近/在线运行平台
  4. 事件管理子系统
    • 报警事件模型
    • 基于状态机引擎的报警升级机制
  5. 通告发送子系统
    • 报警智能合并
    • 报警流控方案
  6. AIOps落地实战经验

听众受益点:

  1. 了解监控报警的业务痛点和对自身架构的挑战
  2. 了解 AIOps 落地过程中的思考和和工程实践经验

交通指南

© 2019 Baidu - GS(2018)5572号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务报名小助手豆包
或致电:010-84780850