近年来云计算、云原生、容器等技术的涌现使 DevOps 在发布、部署上的效率大大... 展开 >
周琦(简志),阿里云资深技术专家,负责阿里集团/蚂蚁金服/阿里云日志处理、分析平台。周琦早年参与阿里云飞天操作系统从无0到1研发,对大规模系统监控诊断、性能分析有非常多的经验。目前负责的产品阿里云日志服务 SLS 每天处理万级用户,十几 PB 日志类数据(Metric、Tracing、Log)分析类任务,服务整个阿里集团+各大知名互联网公司。对 AIOps 领域的数据处理、建模、异常检测、故障诊断、知识图谱等有实践经验,正推进在业务场景的落地。
近年来云计算、云原生、容器等技术的涌现使 DevOps 在发布、部署上的效率大大提升,但"线上监控、诊断和分析"却因数据量膨胀、异构环境复杂性、业务7*24小时连续性要求等变得越来越苛刻。
与无人驾驶(或辅助驾驶)技术类似,AIOps 目标就是通过数值驱动手段,借助算法、建模、推理等方法辅助 DevOps 提升效率,把经验问题转变为一个算力问题。在更快发布同时兼顾更低的风险,使得 IT 设施具备既快又安全的“自动驾驶”的能力。
问题背景:SQL 的性能问题一直是影响到金融系统用户体验甚至是系统可用率的关键因素。传统模式下为了确保 SQL 性能要么需要开发具备丰富的数据库开发经验,要么需要 DBA 投入大量人力对上线的 SQL 执行计划进行逐个 Review。
解决方案选型:使用 AI 算法模拟 DBA 对每个上线版本的 SQLmap 进行智能 Review,让 AI 评估 SQL 是否存在性能问题,哪里存在性能问题,如何优化性能问题。
解决方案介绍:基于陆金所数年的 SQLmap 代码、执行计划、生产运行监控信息、DBA Review建议等数据结合 AI 算法训练和优化 AI SQL Review 系统。
实施后的效果说明:新版本上线后出现烂 SQL 的概率下降了60%,并且 DBA 从 SQL Review 的工作中彻底解放,再也不需要投入大量的人力进行 SQL Review 工作。
演讲提纲:
听众受益点:
监控报警是故障发现的重要一环,也是百度在 AIOps 方向的第一个切入方向,目前百度 AIOps 在监控报警方面已经孵化出两个应用场景:智能异常检测和智能报警合并。
如何支撑 AIOps 算法在监控告警系统的快速落地并产生业务价值,这对监控告警架构提出了很大的挑战!本次分享将重点介绍百度监控告警系统在落地 AIOps 过程中遇到的架构挑战以及相应的解决方案。百度监控告警系统主要由异常检测、事件管理、通告发送三个子系统组成:
最后,将总结监控报警系统在落地 AIOps 算法过程中的实践经验,以及我们对 AIOps 的思考。
演讲提纲:
听众受益点: