目前运维的方法有很多痛点,无论是异常检测,故障发现,瓶颈分析,自愈等工作都需要有... 展开 >
肖世广,腾讯QQ技术运营总监,2008年进入腾讯,经历了应用型、大流量大存储型和平台级的技术运营,负责几万台服务器/几T带宽的运营优化经验,过程中在运营标准化、集群化、智能化,set高度调度和全球分布能力建设,大数据和运营,内部云和DevOps的构建,业务架构优化、业务质量、成本优化等方向都积累了丰富的实践经验。
目前运维的方法有很多痛点,无论是异常检测,故障发现,瓶颈分析,自愈等工作都需要有大量的人工参与。随着公司越做越大,运维的场景也将会变得越来越复杂。那么仅仅依靠人工经验的运维工作将会变得捉襟见肘,所以就必然会走向基于机器学习算法的智能运维(AIOps)。分久必合,合久必分。要想把 AI 引入运维,就需要用 AI 的各种算法逐个攻破运维场景的各种难题。无论是时间序列异常检测,故障根因分析,业务调度等工作,都将会在 AI 的作用下变得容易完成。通过 AIOps 的发展,运维团队的工作效率将会得到大幅提升。Gartner 预计在2020年 AIOps 的使用率将会达到50%甚至更高,所以 AIOps 将会是业务运维场景下的大势所趋。因此,在本次ArchSummit 全球架构师峰会上,我们将会关注 AIOps 的现状和未来发展。
百度智能监控平台是在百度内部最广泛使用的监控平台,目前已覆盖如流量、响应时间、可用性、资源使用等大多数指标的智能监控,本次演讲将选取一个最典型的场景,重点介绍如何做智能流量监控。
流量监控历来都是监控的难点,从原始数据的采集、聚合计算,到智能的异常检测和高时效性的精准报警,都给监控平台、运维和研发工程师带来了巨大挑战。本次演讲我们将重点讨论百度在流量监控场景中遇到的各类挑战,并介绍基于此我们研发的百度智能流量监控模型,该模型可以自动训练并准确地预测流量情况,使用上下文无关的参数/阈值来进行自动异常检测。最后,在展示百度智能流量监控实际案例效果的同时,我们会开放一个试用的站点,欢迎大家申请试用。
基于时间序列的大数据平台是现代智能监控系统的核心。当系统的规模达到一定量级时,构建基于时间序列的大数据平台需要解决四个挑战:高数据吞吐量,数据查询的高度实时性,成本控制和用户对系统的滥用导致的对系统稳定性的挑战。在演讲中,我将分享Pinterest监控组应对这四个挑战的经验。
演讲提纲:
a. 高数据吞吐量 - 预处理,压缩,过滤
b. 数据查询的高度实时性 - 数据降维,缓冲,全内存数据库
c. 成本控制 - 基于数据使用记录的智能数据差异化处理
d. 用户对系统的滥用导致对系统稳定性的挑战 - 对数据写和读的实时建模和监控
听众受益:
58集团在智能运维领域的实践主要集中在监控业务,监控业务是非常适合智能运维落地的场景,在演讲中会涉及我们的探索和实践,包括如下几方面:网络出口流量和业务访问量数据的智能预测和异常检测、智能告警合并、智能根因分析、智能故障自愈等方面的内容。
演讲提纲:
1、智能监控概述
2、关键指标的智能预测和异常检测:
3、智能告警合并
4、智能根因分析
5、智能故障自愈
听众受益点:
Metis是从腾讯海量业务的一体化运维体系孵化而成的,时间序列异常检测是Metis组成部分之一,承载了腾讯QQ业务的智能监控告警功能。主要实现思路是通过学习织云海量的时间序列样本,训练出一套智能检测模型,对时间序列进行检测。在腾讯内部已涵盖超20万台服务器,超240万业务指标,保障了99.99%以上的业务可用率。