不可阻挡的AIOps

会议室:醉翁亭
出品人:肖世广

目前运维的方法有很多痛点,无论是异常检测,故障发现,瓶颈分析,自愈等工作都需要有... 展开 >

专题出品人:肖世广

腾讯 QQ技术运营总监

肖世广,腾讯QQ技术运营总监,2008年进入腾讯,经历了应用型、大流量大存储型和平台级的技术运营,负责几万台服务器/几T带宽的运营优化经验,过程中在运营标准化、集群化、智能化,set高度调度和全球分布能力建设,大数据和运营,内部云和DevOps的构建,业务架构优化、业务质量、成本优化等方向都积累了丰富的实践经验。

地点:醉翁亭

专题:不可阻挡的AIOps

目前运维的方法有很多痛点,无论是异常检测,故障发现,瓶颈分析,自愈等工作都需要有大量的人工参与。随着公司越做越大,运维的场景也将会变得越来越复杂。那么仅仅依靠人工经验的运维工作将会变得捉襟见肘,所以就必然会走向基于机器学习算法的智能运维(AIOps)。分久必合,合久必分。要想把 AI 引入运维,就需要用 AI 的各种算法逐个攻破运维场景的各种难题。无论是时间序列异常检测,故障根因分析,业务调度等工作,都将会在 AI 的作用下变得容易完成。通过 AIOps 的发展,运维团队的工作效率将会得到大幅提升。Gartner 预计在2020年 AIOps 的使用率将会达到50%甚至更高,所以 AIOps 将会是业务运维场景下的大势所趋。因此,在本次ArchSummit 全球架构师峰会上,我们将会关注 AIOps 的现状和未来发展。

by 王博

百度云
资深软件研发工程师

百度智能监控平台是在百度内部最广泛使用的监控平台,目前已覆盖如流量、响应时间、可用性、资源使用等大多数指标的智能监控,本次演讲将选取一个最典型的场景,重点介绍如何做智能流量监控。

流量监控历来都是监控的难点,从原始数据的采集、聚合计算,到智能的异常检测和高时效性的精准报警,都给监控平台、运维和研发工程师带来了巨大挑战。本次演讲我们将重点讨论百度在流量监控场景中遇到的各类挑战,并介绍基于此我们研发的百度智能流量监控模型,该模型可以自动训练并准确地预测流量情况,使用上下文无关的参数/阈值来进行自动异常检测。最后,在展示百度智能流量监控实际案例效果的同时,我们会开放一个试用的站点,欢迎大家申请试用。

演讲提纲:

  1. 百度智能监控平台介绍
  2. 流量监控场景与难点
  3. 流量异常检测模型
    • 异常检测模型
    • 基于鲁棒回归的预测算法
    • 基于概率分布的检测算法
  4. 实验效果
    • 标注与评估方法
    • 实验效果
  5. 试用介绍

听众受益点:

  1. 百度智能监控平台
  2. 流量监控场景与难点
  3. 流量异常检测模型

by 孟晓桥

Pinterest
监控组经理

基于时间序列的大数据平台是现代智能监控系统的核心。当系统的规模达到一定量级时,构建基于时间序列的大数据平台需要解决四个挑战:高数据吞吐量,数据查询的高度实时性,成本控制和用户对系统的滥用导致的对系统稳定性的挑战。在演讲中,我将分享Pinterest监控组应对这四个挑战的经验。

演讲提纲:

  • 介绍基于时间序列的大数据平台的应用
  • 时间序列的大数据平台的基本架构
  • 四个挑战以及应对方法: 

a. 高数据吞吐量 - 预处理,压缩,过滤 
b. 数据查询的高度实时性 - 数据降维,缓冲,全内存数据库 
c. 成本控制 - 基于数据使用记录的智能数据差异化处理 
d. 用户对系统的滥用导致对系统稳定性的挑战 - 对数据写和读的实时建模和监控

  • 总结

听众受益:

  • 从事监控的参会者能了解时间序列数据平台的系统框架和可能遇到的实际问题;
  • 分享的四个挑战和应对方法也适用于很多大规模实时的数据平台,希望对从事大数据的参会者也有所启发。

by 龚诚

58集团
高级技术经理,智能运维团队负责人

58集团在智能运维领域的实践主要集中在监控业务,监控业务是非常适合智能运维落地的场景,在演讲中会涉及我们的探索和实践,包括如下几方面:网络出口流量和业务访问量数据的智能预测和异常检测、智能告警合并、智能根因分析、智能故障自愈等方面的内容。

演讲提纲:

1、智能监控概述

2、关键指标的智能预测和异常检测:

  • 根据历史数据预测数据走势
    • 通过无监督的分类模型对训练样本集进行标记,减少人工标记样本工作量
    • 使用回归模型对数据进行预测
  • 实时数据的异常检测和告警
    • 使用分类模型对异常进行检测
    • 对异常数据进行分级,根据异常的级别做告警分级(普通异常、严重异常、数据陡变异常)

3、智能告警合并

4、智能根因分析

5、智能故障自愈

听众受益点:

  1. 了解智能运维在监控领域适合落地的几个技术方向及总体思路;
  2. 深入了解如何将机器学习理论和技术应用于周期性波动变化关键指标的预测和异常检测。

by 汪华

腾讯
高级工程师,手机QQ运维负责人

Metis是从腾讯海量业务的一体化运维体系孵化而成的,时间序列异常检测是Metis组成部分之一,承载了腾讯QQ业务的智能监控告警功能。主要实现思路是通过学习织云海量的时间序列样本,训练出一套智能检测模型,对时间序列进行检测。在腾讯内部已涵盖超20万台服务器,超240万业务指标,保障了99.99%以上的业务可用率。

演讲提纲:

  1. 传统监控的问题与Metis的建设背景
  2. 检测算法原理与应用
  3. 样本库建设与管理
  4. 特征工程与打标工程
  5. Metis工程方案

听众受益:

  1. 智能检测的优势与必要性;
  2. Metis异常检测的功能与架构;
  3. AI与运维场景相结合的实践思路。
想要批量报名或更多优惠?
立即联系票务报名小助手豆包
或致电:010-84780850