阿里巴巴故障治理领域的智能运维实践

所属专题:新一代DevOps

嘉宾 : 王肇刚 | 阿里巴巴高级技术专家

会议室 : 会议厅201

讲师介绍

专题演讲嘉宾:王肇刚

阿里巴巴 高级技术专家

阿里巴巴集团 基础设施事业群-全球运行指挥中心(GOC) 高级技术专家。负责阿里巴巴集团业务指标监控、业务故障管理工作。在时间序列异常检测、业务故障定位及影响面分析、运维数据仓库和其它相关的智能运维相关领域有丰富的技术经验积累和成果产出。其中,业务指标异常检测算法,成功地将阿里巴巴集团核心业务指标监控的正确率提从40%提升到80%,极大地提升了集团业务故障发现的效率和自动化水平。

2017年5月,受邀代表阿里巴巴集团参加国际运维领域顶级会议SREcon17,并发表主题演讲,向国际同行介绍阿里巴巴集团在业务指标异常检测算法方面的实践和成果。

在加入阿里巴巴之前,作为百度智能运维团队的架构师及核心项目负责人,主导了服务于百度商业广告系统异常发现和故障定位的智能运维产品的设计和研发,并对主导了百度运维数据仓库及百度智能运维平台的设计和研发工作。参与过百度运维平台和运维基础组件(中间件)的研发工作。也曾经担任百度贴吧产品线的运维负责人,积累了大量一线应用运维的业务和技术经验。

议题介绍

地点:会议厅201
所属专题:新一代DevOps

演讲:阿里巴巴故障治理领域的智能运维实践

演讲摘要

本次演讲将介绍智能运维理念在阿里巴巴集团的业务故障管理领域落地的整体思考和实践成果。

从日常技术服务工作中技术工单的智能化分拣,到业务指标时间序列的异常发现;从业务故障影响面的自动确定,到业务给出辅助的故障定位信息;从业务故障等级的智能化判断,到故障快速恢复的智能决策和实施,阿里巴巴集团 全球运行指挥中心事业部(GOC)的技术团队在用技术为业务稳定性服务的过程中,将智能运维的理念应用到了实际的工作当中,取得了很好的业务效果。

本次演讲将整体介绍GOC团队所负责的阿里集团技术服务及故障管理的整体业务流程,以及在智能化、数据驱动的理念指导下的智能运维整体技术架构。进而,基于工单智能分拣、业务故障发现及影响面分析、业务故障辅助定位、故障智能定级和快速恢复等五大场景,从实战角度介绍如何利用数据、算法来解决运维领域的具体业务问题,涉及业务问题的拆解、数据的准备、算法的选型和应用、效果的衡量等内容。最后会基于以上的内容,对后续在智能运维领域的相关工作进行展望,并对智能运维在互联网企业中的落地给出指导性建议。

演讲提纲

  • 阿里巴巴集团全局故障治理业务流程
  • 基于智能化运维的故障治理全流程优化效果
  1. 工单处理效率提升
  2. 业务指标发现的效率和准确率提升
  3. 故障定级的效率和准确率提升
  4. 故障定位的能力及快速切换能力的提升
  • 基于智能运维的阿里巴巴全流程故障治理技术架构
  • 实战案例讲解

1.工单自动分拣

i. 业务背景及问题拆解

ii. 工单自动分类算法选型和实践思路

2.业务故障发现及影响面分析

i. 基于时间序列分析的智能基线 

ii. 自学习和自适应的异常判定

iii. 故障影响面自动分析

3.故障辅助定位

i. 基于实时数据仓库的故障相关可疑事件推送

ii. 基于数据分析的故障根因推荐

4.故障智能定级和快速恢复

i. 业务背景及问题拆解

ii. 基于规则引擎的故障定级策略和快速恢复条件判断

5.后续工作及展望

  • 智能运维落地方案的实施建议

听众收益

  • 通过具体地案例了解到数据和算法在运维领域中应用的实战经验(涵盖时间序列分析、文本分类、规则引擎、实时数据仓库等算法及工程技术领域)。
  • 基于案例和总结,了解到如何基于对现有业务的理解,选择合适的场景来应用智能化的算法并付诸实践。
  • 了解到现在的运维系统和数据应该如何准备和积累,才能够有利于智能算法的引入的落地。
  • 了解到阿里集团在全局故障治理领域的业务模式和运维经验积累。

极客邦控股(北京)有限公司

北京市朝阳区望京利泽中二路洛娃大厦C座6层1607