智能高效运维

会议室:二层 203AB
出品人:马晋

随着公司运维场景变得越来越复杂,基于机器学习算法的智能运维已成定局。要想把 AI... 展开 >

专题出品人:马晋

百度 网页搜索部主任研发架构师

2007年毕业于吉林大学,硕士学位,同年加入百度,致力于搜索引擎索引性价比、检索架构等相关方面工作,推动百度索引规模的不断成长,主导百度索引规模从数亿成长为数千亿的一系列架构升级,创建了百度学术产品。发表专利论文多篇,具有丰富的搜索产品开发经验。

地点:二层 203AB

专题:智能高效运维

随着公司运维场景变得越来越复杂,基于机器学习算法的智能运维已成定局。要想把 AI 引入运维,就需要用 AI 的各种算法逐个攻破运维场景的各种难题。无论是时间序列异常检测,故障根因分析,业务调度等工作,都将会在 AI 的作用下变得容易完成。通过智能运维的发展,运维团队的工作效率将会得到大幅提升。

by 李刚

百度
可用性工程技术负责人

超大规模分布式系统如何避免新闻级故障的发生,并保证99.995%以上的高可用性?为此,百度的解决方案是实施百度服务可用性建设工程。本次演讲中,会系统性介绍百度服务高可用建设的整体技术框架和各方向的技术方案,包括服务变更风险管控、容量风险管控、智能故障定位与止损、主动制造故障等方向。希望能给各位听众带来启发。

演讲提纲:

  1. 什么是服务可用性?
  2. 服务可用性影响因素分析
  3. 百度服务可用性工程技术框架
  4. 通过踩坑经历引出可用性工程框架,以及框架中的技术如何落地
  5. 百度服务可用性工程分方向落地技术方案(含背景、核心技术方案、实施效果说明等)

听众受益点:

  • 了解百度是如何用工程化的方法系统性建设服务可用性
  • 了解AI在可用性建设上的最佳实践

by 刘宏伟

美团
资深技术专家

外卖业务持续高速成长,业务迭代快,逻辑复杂,关联服务多。如何快速准确识别系统各项指标的异常,发现问题根因,并快速解决显得尤为重要。在常规业务指标监控工作中需要手动维护上万业务指标报警阈值,不仅成本高,效果也不佳。我们尝试使用“形变分析模型”对业务指标自动进行异常检测,无需人工设置阈值。在实践过程中与外卖全链路压测,服务保护等稳定性保障系统进行内联,目前已覆盖绝大部分美团外卖C端核心业务指标,效果不错。

演讲提纲:

1、美团外卖业务稳定性建设现状

  • 业务指标特点
  • 异常检测在整体架构中的位置

2、形变分析模型介绍

  • 形变分析模型的算法过程
  • 自适应阈值计模型介绍
  • 形变分析模型的能力边界和使用范围
  • 形变分析模型的变种-变点检查模型介绍
  • 报警收敛规则以及自适应报警收敛模型

3、形变分析模型和其他异常检测模型对比
4、业务异常检测系统的整体设计
5、与全链路压测和服务保护系统内联
6、落地情况以及实践效果

听众受益点:

  1. 在不引入复杂算法的前提下,如何设计出真实可行的业务异常检测模型。
  2. 异常检测系统与其他稳定性相关的系统的内联。
  3. 美团外卖在异常检测方面面临的困境与踩过的坑。

by 司宇

阿里巴巴
GOC-监控中心技术专家

阿里巴巴集团拥有电商、金融、文娱、新零售、云计算等种多种业务形态,如何对这些业务形态做集团层面的统一故障治理,对产品/技术/运营都是巨大的挑战。阿里巴巴集团全球运行指挥中心(GOC)通过多年的探索,积累了大量跨 BU 故障治理经验,并在过程中使用了创新了自动化、智能化体系。

本次演讲将会对阿里巴巴集团故障治理整体流程及实战中的自动化、智能化体系做以介绍,并对未来故障治理领域智能运维工作进行展望。

演讲提纲:

1、阿里巴巴全局故障治理流程

2、基于AIOps的全局故障治理架构

3、新零售/云计算等新业态给全局故障治理带来的挑战

  • 故障分维度下钻分析
  • 全局统一的监控/报警接入网关

4、实战案例讲解

  • 故障知识图谱
  • 故障等级定义结构化
  • 自动化通告
  • 智能应急助手
    • 业务背景及问题拆解
    • 通告内容自动纠错
    • 故障场景自动分析升级

5、智能运维落地方案实施建议

听众受益点:

  1. 了解阿里集团跨BU丰富业务形态下的统一故障治理实战经验;
  2. 了解新零售/云计算等新兴业务的故障管理案例;
  3. 基于案例,了解到故障治理领域 AIOps 及算法的落地方案。