百度智能监控平台、网络监控平台、故障自愈平台负责人。2012年加入百度,先后负责服务管理、运维数据仓库、智能监控、网络监控平台架构设计与研发工作。积累大量运维业务分析及平台研发经验。目前主攻的单机房故障自愈解决方案已经在百度多个核心产品线得到有效应用,在多次IDC故障中有出色表现。
百度智能监控平台、网络监控平台、故障自愈平台负责人。2012年加入百度,先后负责服务管理、运维数据仓库、智能监控、网络监控平台架构设计与研发工作。积累大量运维业务分析及平台研发经验。目前主攻的单机房故障自愈解决方案已经在百度多个核心产品线得到有效应用,在多次IDC故障中有出色表现。
在大型互联网公司,单IDC级故障因为其故障时间长,影响范围大,一直是互联网公司及运维人员心头之痛。构成单IDC故障的原因,除了常见的运营商、IDC、链路等网络层面故障,也包括突增的用户请求、业务服务的容量不足、程序bug、异常的运维变更操作等,都会触发单IDC级业务故障的发生。在传统的运维方式中,由于故障感知判断与容量&流量调度决策的复杂性,通常是人为进行有效止损,但人工介入的时效性会影响服务的快速恢复,而人工决策的不可靠性则可能导致问题的扩大。
为解决这类问题,我们针对百度内外部网络环境建设了基于智能流量调度的单IDC故障自愈能力。结合外网运营商链路监测、内网链路质量监测与业务指标监控构建了全方位故障发现能力,基于百度统一前端(BFE)与内网资源定位服务(BNS)实现了智能流量调度与自动止损能力。同时,基于实时容量预测与实时水位流量来调度自动止损策略与管控风险,从而实现任意单IDC故障时业务均可快速自愈的效果。
极客邦控股(北京)有限公司
北京市朝阳区望京利泽中二路洛娃大厦C座6层1607