随着公司运维场景变得越来越复杂,基于机器学习算法的智能运维已成定局。要想把 AI... 展开 >
2007年毕业于吉林大学,硕士学位,同年加入百度,致力于搜索引擎索引性价比、检索架构等相关方面工作,推动百度索引规模的不断成长,主导百度索引规模从数亿成长为数千亿的一系列架构升级,创建了百度学术产品。发表专利论文多篇,具有丰富的搜索产品开发经验。
随着公司运维场景变得越来越复杂,基于机器学习算法的智能运维已成定局。要想把 AI 引入运维,就需要用 AI 的各种算法逐个攻破运维场景的各种难题。无论是时间序列异常检测,故障根因分析,业务调度等工作,都将会在 AI 的作用下变得容易完成。通过智能运维的发展,运维团队的工作效率将会得到大幅提升。
超大规模分布式系统如何避免新闻级故障的发生,并保证99.995%以上的高可用性?为此,百度的解决方案是实施百度服务可用性建设工程。本次演讲中,会系统性介绍百度服务高可用建设的整体技术框架和各方向的技术方案,包括服务变更风险管控、容量风险管控、智能故障定位与止损、主动制造故障等方向。希望能给各位听众带来启发。
演讲提纲:
听众受益点:
外卖业务持续高速成长,业务迭代快,逻辑复杂,关联服务多。如何快速准确识别系统各项指标的异常,发现问题根因,并快速解决显得尤为重要。在常规业务指标监控工作中需要手动维护上万业务指标报警阈值,不仅成本高,效果也不佳。我们尝试使用“形变分析模型”对业务指标自动进行异常检测,无需人工设置阈值。在实践过程中与外卖全链路压测,服务保护等稳定性保障系统进行内联,目前已覆盖绝大部分美团外卖C端核心业务指标,效果不错。
演讲提纲:
1、美团外卖业务稳定性建设现状
2、形变分析模型介绍
3、形变分析模型和其他异常检测模型对比
4、业务异常检测系统的整体设计
5、与全链路压测和服务保护系统内联
6、落地情况以及实践效果
听众受益点:
阿里巴巴集团拥有电商、金融、文娱、新零售、云计算等种多种业务形态,如何对这些业务形态做集团层面的统一故障治理,对产品/技术/运营都是巨大的挑战。阿里巴巴集团全球运行指挥中心(GOC)通过多年的探索,积累了大量跨 BU 故障治理经验,并在过程中使用了创新了自动化、智能化体系。
本次演讲将会对阿里巴巴集团故障治理整体流程及实战中的自动化、智能化体系做以介绍,并对未来故障治理领域智能运维工作进行展望。
演讲提纲:
1、阿里巴巴全局故障治理流程
2、基于AIOps的全局故障治理架构
3、新零售/云计算等新业态给全局故障治理带来的挑战
4、实战案例讲解
5、智能运维落地方案实施建议
听众受益点: