运维开发框架、运维知识库、运维策略库是 AIOps 中不可或缺的三部分,如何将这... 展开 >
携程网站运维总监,对大规模运维场景下的质量效率提升、成本优化等方向有较丰富的认知与实践经验,推动和参与了携程的 DR 高可用性建设、应用运维体系建设、在线离线混部建设等,近期主要关注以数据驱动精细化运维、AIOps 方向。
运维开发框架、运维知识库、运维策略库是 AIOps 中不可或缺的三部分,如何将这些搭建好,并落地到业务中,是我们关注的重点。
只有一个月,从接入层的角度如何应对春晚活动的挑战。事后复盘,怎样更加从容应对类似的大型活动。
议题二、春晚蓝军:压测与攻防
春晚极限吞吐场景,系统架构绝不能是除夕当晚第一次面对极限负载;各种未知异常不可能被提前设想全;从接到任务到完整验证全系统,时间以天计。本次演讲分享百度春晚蓝军部队如何解决这一系列难题。
演讲提纲:
听众受益点:
陆金所于2017年11月完成同城双活机房建设,在闭环 CMDB 和运维自动化变更云平台建设完成的基础上,为保证机房发生灾难情况下,将业务影响降至最低,陆金所技术运营部于2018年4月份启动了机房一键切换项目。
2018年12月1日,陆金所用4分38秒成功将网站所有服务进行机房级切换演练(包含1429个应用系统,120个 DB 实例,310个外部网关,3100个 job,11个A/S应用,文件服务等核心架构组件),达成机房一键切换的设计目标。
2018年12月22日,陆金所利用一键切换平台将主机房从宝信切换至外高桥机房。2019年3月30日,陆金所将主机房从外高桥切换至宝信机房,耗时缩短到4分05秒。一键切换平台的完成,代表陆金所具备机房级容灾5分钟内恢复的能力,达到业界领先水平。
演讲提纲:
1、设计目标:
2、项目挑战:
3、设计方案关键点:
听众受益点:
阿里云日志服务作为阿里集团底层日志平台,提供完善易用的数据采集方案,PB 级数据实时索引和分析能力,在阿里集团被广泛应用,数千工程师直接使用日志服务进行日常问题排查,也有大量应用基于日志服务进行二次开发,如阿里集团所有大型 Trace 系统底层都使用日志服务。
演讲提纲:
1、介绍阿里云 10PB +/天日志系统如何运转
2、系统解决的核心技术难点
性能和成本
多租户下稳定性实现
系统管理
3、面向运维场景的高级功能介绍
4、应用实践
听众受益点:
作为一个分布式数据库,TiDB 面临的一个非常严重的挑战在于如何让用户相信,他们存储在 TiDB 里面的数据是安全的,不会出现丢失,损坏这些情况。为此,从一开始开发 TiDB 的时候,我们就引入混沌工程,来保证 TiDB 在各种极端情况下面的稳定性。在这次演讲里面,我将会分享一些在 TiDB 应用混沌工程的方法,介绍我们基于 K8s 自己研发的自动化测试平台 Schrodinger,并通过一个实际的例子来说明我们是如何在 Schrodinger 里面应用混沌来测试系统的。
演讲提纲:
听众受益点: