陆金所机房一键切换平台建设

所属专题:运维新突破

所属领域:

嘉宾 : 刘俊 | 陆金所技术运营部运维开发团队经理

会议室 : 大宴会厅2

讲师介绍

专题演讲嘉宾:刘俊

陆金所 技术运营部运维开发团队经理

2016年4月入司至今,先后在规划管理团队和运维开发团队担任资深架构师、团队经理职务。负责陆金所核心IT技术运营系统的建设与保障工作,负责陆金所 DevOps 核心运营流程与工具链的持续优化改进以及技术运营相关业务的技术选型、方案制定与架构设计。同时也负责 IT 技术体系可用率保障的相关技术工作。

议题介绍

地点:大宴会厅2
所属专题:运维新突破
所属领域:

演讲:陆金所机房一键切换平台建设

陆金所于2017年11月完成同城双活机房建设,在闭环 CMDB 和运维自动化变更云平台建设完成的基础上,为保证机房发生灾难情况下,将业务影响降至最低,陆金所技术运营部于2018年4月份启动了机房一键切换项目。

2018年12月1日,陆金所用4分38秒成功将网站所有服务进行机房级切换演练(包含1429个应用系统,120个 DB 实例,310个外部网关,3100个 job,11个A/S应用,文件服务等核心架构组件),达成机房一键切换的设计目标。

2018年12月22日,陆金所利用一键切换平台将主机房从宝信切换至外高桥机房。2019年3月30日,陆金所将主机房从外高桥切换至宝信机房,耗时缩短到4分05秒。一键切换平台的完成,代表陆金所具备机房级容灾5分钟内恢复的能力,达到业界领先水平。

演讲提纲:

1、设计目标:

  • 在宝信机房正常提供服务的情况下,通过一键切换平台10分钟内切换宝信机房至外高桥。

2、项目挑战:

  • 全站1400+应用系统,100套+DB 实例,300+大网关,3000+job 调度,梳理A/S应用(数量庞大,架构复杂,系统多样)
  • 数据一致性保障,CMDB 自动化闭环,自动化平台重构,一键切换多任务并发执行时效,时效要求高(技术框架改造量大)
  • 生产应用标准化改造工作量大(历史遗留问题多)

3、设计方案关键点:

  • 双活机房有状态的服务需要可以在机房之间做灵活切换
  • 服务经全面梳理确认为7大类型
  • 7大服务切换需要反复生产验证,确保接口健壮性
  • 机房切换需分批次,逐步加量验证
  • DB 切换涉及百套以上 DB,Oracle/MySQL/Redis 都需要完成切换目标
  • 一键切换平台需具备高可用/权限控制/切换过程输出/服务展示/切换进度/自动检查/CMDB 闭环等功能

听众受益点:

  1. 陆金所的运维自动化的根本实现原则是分而治之,大而化小
  2. 每个服务目录,无论是复杂的组合操作还是简单的原子操作,都统一遵循以上4步流程
  3. 所有涉及的元数据都要求从 CMDB 中获取,完成变更后所有变化也需要反应到 CMDB 中从而形成闭环
  4. 变更流程的所有细节都需要在变更设计阶段却确定并提交到相关审批流程中(切换过程自动化审批)
  5. 变更的执行要求全生命周期管理,过程中的状态以及产生的所有日志都会留存并提供用户实时查询与相关干预操作

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务报名小助手豆包
或致电:010-84780850