演讲摘要
本次演讲将介绍智能运维理念在阿里巴巴集团的业务故障管理领域落地的整体思考和实践成果。
从日常技术服务工作中技术工单的智能化分拣,到业务指标时间序列的异常发现;从业务故障影响面的自动确定,到业务给出辅助的故障定位信息;从业务故障等级的智能化判断,到故障快速恢复的智能决策和实施,阿里巴巴集团 全球运行指挥中心事业部(GOC)的技术团队在用技术为业务稳定性服务的过程中,将智能运维的理念应用到了实际的工作当中,取得了很好的业务效果。
本次演讲将整体介绍GOC团队所负责的阿里集团技术服务及故障管理的整体业务流程,以及在智能化、数据驱动的理念指导下的智能运维整体技术架构。进而,基于工单智能分拣、业务故障发现及影响面分析、业务故障辅助定位、故障智能定级和快速恢复等五大场景,从实战角度介绍如何利用数据、算法来解决运维领域的具体业务问题,涉及业务问题的拆解、数据的准备、算法的选型和应用、效果的衡量等内容。最后会基于以上的内容,对后续在智能运维领域的相关工作进行展望,并对智能运维在互联网企业中的落地给出指导性建议。
演讲提纲
- 阿里巴巴集团全局故障治理业务流程
- 基于智能化运维的故障治理全流程优化效果
- 工单处理效率提升
- 业务指标发现的效率和准确率提升
- 故障定级的效率和准确率提升
- 故障定位的能力及快速切换能力的提升
- 基于智能运维的阿里巴巴全流程故障治理技术架构
- 实战案例讲解
1.工单自动分拣
i. 业务背景及问题拆解
ii. 工单自动分类算法选型和实践思路
2.业务故障发现及影响面分析
i. 基于时间序列分析的智能基线
ii. 自学习和自适应的异常判定
iii. 故障影响面自动分析
3.故障辅助定位
i. 基于实时数据仓库的故障相关可疑事件推送
ii. 基于数据分析的故障根因推荐
4.故障智能定级和快速恢复
i. 业务背景及问题拆解
ii. 基于规则引擎的故障定级策略和快速恢复条件判断
5.后续工作及展望
听众收益
- 通过具体地案例了解到数据和算法在运维领域中应用的实战经验(涵盖时间序列分析、文本分类、规则引擎、实时数据仓库等算法及工程技术领域)。
- 基于案例和总结,了解到如何基于对现有业务的理解,选择合适的场景来应用智能化的算法并付诸实践。
- 了解到现在的运维系统和数据应该如何准备和积累,才能够有利于智能算法的引入的落地。
- 了解到阿里集团在全局故障治理领域的业务模式和运维经验积累。