运维新突破

会议室:大宴会厅2
出品人:方菊

运维开发框架、运维知识库、运维策略库是 AIOps 中不可或缺的三部分,如何将这... 展开 >

专题出品人:方菊

携程 运维总监

携程网站运维总监,对大规模运维场景下的质量效率提升、成本优化等方向有较丰富的认知与实践经验,推动和参与了携程的 DR 高可用性建设、应用运维体系建设、在线离线混部建设等,近期主要关注以数据驱动精细化运维、AIOps 方向。

地点:大宴会厅2

专题:运维新突破

运维开发框架、运维知识库、运维策略库是 AIOps 中不可或缺的三部分,如何将这些搭建好,并落地到业务中,是我们关注的重点。

by 陈曦洋

百度/运维部
资深运维工程师

by 曹轩

百度
运维技术负责人

by 许霞

百度/运维部
主任架构师

只有一个月,从接入层的角度如何应对春晚活动的挑战。事后复盘,怎样更加从容应对类似的大型活动。

  1. 演讲提纲:
  2. 数据谜题 - 春晚意味着什么
  3. 预测 - 神奇博士
  4. 架构准备 - 城墙,阵型,刀法
  5. 移动端 - 极限挑战
  6. 协作 - 背靠背
  7. 突发事件与应急响应 - 48小时
  8. 复盘与理想方案

议题二、春晚蓝军:压测与攻防

春晚极限吞吐场景,系统架构绝不能是除夕当晚第一次面对极限负载;各种未知异常不可能被提前设想全;从接到任务到完整验证全系统,时间以天计。本次演讲分享百度春晚蓝军部队如何解决这一系列难题。

演讲提纲:

  1. 蓝军的思维模式
  2. 压测的评价指标
  3. 控制精度
  4. 仿真性
  5. 覆盖面
  6. 业务影响
  7. 执行成本

听众受益点:

  1. 极限吞吐压力测试系统架构设计;
  2. 低成本高覆盖的带宽解决方案;
  3. 自动化自助化的通用压力构建解决方案;

by 刘俊

陆金所
技术运营部运维开发团队经理

陆金所于2017年11月完成同城双活机房建设,在闭环 CMDB 和运维自动化变更云平台建设完成的基础上,为保证机房发生灾难情况下,将业务影响降至最低,陆金所技术运营部于2018年4月份启动了机房一键切换项目。

2018年12月1日,陆金所用4分38秒成功将网站所有服务进行机房级切换演练(包含1429个应用系统,120个 DB 实例,310个外部网关,3100个 job,11个A/S应用,文件服务等核心架构组件),达成机房一键切换的设计目标。

2018年12月22日,陆金所利用一键切换平台将主机房从宝信切换至外高桥机房。2019年3月30日,陆金所将主机房从外高桥切换至宝信机房,耗时缩短到4分05秒。一键切换平台的完成,代表陆金所具备机房级容灾5分钟内恢复的能力,达到业界领先水平。

演讲提纲:

1、设计目标:

  • 在宝信机房正常提供服务的情况下,通过一键切换平台10分钟内切换宝信机房至外高桥。

2、项目挑战:

  • 全站1400+应用系统,100套+DB 实例,300+大网关,3000+job 调度,梳理A/S应用(数量庞大,架构复杂,系统多样)
  • 数据一致性保障,CMDB 自动化闭环,自动化平台重构,一键切换多任务并发执行时效,时效要求高(技术框架改造量大)
  • 生产应用标准化改造工作量大(历史遗留问题多)

3、设计方案关键点:

  • 双活机房有状态的服务需要可以在机房之间做灵活切换
  • 服务经全面梳理确认为7大类型
  • 7大服务切换需要反复生产验证,确保接口健壮性
  • 机房切换需分批次,逐步加量验证
  • DB 切换涉及百套以上 DB,Oracle/MySQL/Redis 都需要完成切换目标
  • 一键切换平台需具备高可用/权限控制/切换过程输出/服务展示/切换进度/自动检查/CMDB 闭环等功能

听众受益点:

  1. 陆金所的运维自动化的根本实现原则是分而治之,大而化小
  2. 每个服务目录,无论是复杂的组合操作还是简单的原子操作,都统一遵循以上4步流程
  3. 所有涉及的元数据都要求从 CMDB 中获取,完成变更后所有变化也需要反应到 CMDB 中从而形成闭环
  4. 变更流程的所有细节都需要在变更设计阶段却确定并提交到相关审批流程中(切换过程自动化审批)
  5. 变更的执行要求全生命周期管理,过程中的状态以及产生的所有日志都会留存并提供用户实时查询与相关干预操作

by 孙廷韬(龙悟)

阿里云
高级技术专家

阿里云日志服务作为阿里集团底层日志平台,提供完善易用的数据采集方案,PB 级数据实时索引和分析能力,在阿里集团被广泛应用,数千工程师直接使用日志服务进行日常问题排查,也有大量应用基于日志服务进行二次开发,如阿里集团所有大型 Trace 系统底层都使用日志服务。

演讲提纲:

1、介绍阿里云 10PB +/天日志系统如何运转

  • 核心功能介绍
  • 支持的场景和解决的问题

2、系统解决的核心技术难点

性能和成本

  • PB 级索引系统设计思路

多租户下稳定性实现

  • 流量秒级流控、防穿透
  • 自动负载均衡
  • 资源动态分配和隔离

系统管理

  • 百万级的客户端如何管理、监控、问题自助定位
  • 应用管理

3、面向运维场景的高级功能介绍 

  •  基于机器学习的时序数据智能诊断和预测
  •  超大规模日志实时智能聚类

4、应用实践

  •  阿里内部基于日志服务构建系统实践

听众受益点:

  1. 了解生产环境下 10( PB +/天)日志系统的设计和实现,以及在这背后的思考
  2. 了解系统如何稳定支持上万应用
  3. 了解如何基于日志数据进行智能运维,以及阿里内部应用实践

by 唐刘

PingCAP
Chief Engineer

作为一个分布式数据库,TiDB 面临的一个非常严重的挑战在于如何让用户相信,他们存储在 TiDB 里面的数据是安全的,不会出现丢失,损坏这些情况。为此,从一开始开发 TiDB 的时候,我们就引入混沌工程,来保证 TiDB 在各种极端情况下面的稳定性。在这次演讲里面,我将会分享一些在 TiDB 应用混沌工程的方法,介绍我们基于 K8s 自己研发的自动化测试平台 Schrodinger,并通过一个实际的例子来说明我们是如何在 Schrodinger 里面应用混沌来测试系统的。

演讲提纲:

  1. TiDB 的基本架构介绍
  2. 混动工程介绍以及相关原则解释
  3. 在 TiDB 里面应用混沌工程的方法
  4. Schrodinger 平台介绍
  5. 一个实际的例子

听众受益点:

  1. 能了解什么是混沌工程
  2. 能知道常用的应用混沌工程的方法
  3. 能了解如何基于 K8s 来开发一个自动化测试平台

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务报名小助手豆包
或致电:010-84780850