新一代DevOps

会议室:会议厅201
出品人:毛茂德(如柏)

DevOps的概念的提出接近10年了,跟敏捷,持续集成,持续部署一样,他是一个方... 展开 >

专题出品人:毛茂德(如柏)

阿里巴巴 资深架构师,运维中台负责人

毛茂德(花名: 如柏),阿里巴巴集团基础架构事业群运维中台负责人,亲历者。当前工作是负责 IDC 建设、网络建设、基础数据库运维、大数据运维,研发协同等事项,并主导设计构建高可靠、高并发、大规模的基础运维平台和应用运维平台。

十余年来坚持不懈的追求研发、测试、运维效率提升,推动DevOps实施落地。现在正致力于打造基于混合云的应用运维无人值守解决方案,以及自动化、数据化、智能化应用运维解决方案。

曾任职于eBay,RedHat,IONA,也是 Apache CXF 初创成员之一。

专题出品人:毛茂德(如柏)

阿里巴巴 资深架构师,运维中台负责人

毛茂德(花名: 如柏),阿里巴巴集团基础架构事业群运维中台负责人,亲历者。当前工作是负责 IDC 建设、网络建设、基础数据库运维、大数据运维,研发协同等事项,并主导设计构建高可靠、高并发、大规模的基础运维平台和应用运维平台。

十余年来坚持不懈的追求研发、测试、运维效率提升,推动DevOps实施落地。现在正致力于打造基于混合云的应用运维无人值守解决方案,以及自动化、数据化、智能化应用运维解决方案。

曾任职于eBay,RedHat,IONA,也是 Apache CXF 初创成员之一。

地点:会议厅201

专题:新一代DevOps

DevOps 的概念的提出接近10年了,跟敏捷,持续集成,持续部署一样,他是一个方法论,他主要解决的就是如何更快速的发布部署, 如何快速的故障恢复,更低的变更失败,如何缩短业务交付时长,这个概念逐渐深入人心。

提升协作效率,降低开发成本,更稳健可持续的业务运营是DevOps的主旋律。

根据16年DevOps调查报告显示,一个低效的IT组织跟一个高效的IT组织相比,差距可能是200倍,简单的说低效组织发布一个功能,高效组织可能已经发布了200个功能;故障恢复的效率差距可能是几十倍,简单的说高效团队可能几分钟就恢复了故障,低效组织可能需要几个小时。

那么在日益激烈的商业竞争环境下无论多大的体量的公司,这么低效的IT组织注定在商业上也是要失败的。因为这个世界是快鱼吃慢鱼的时代, 已经不是大鱼吃小鱼的时代了。去年Gaterner又提出了AIOps的概念,就是用基于算法来提升运维效率,其实在国内很多公司早就已经践行智能化运维了,在各个运维的场景都有了不同程度的应用。

本专题在介绍传统的DevOps的同时会更偏向于向大家介绍机器学习和算法是如何提升DevOps效率,已经这些技术的实际落地经验。

by 张娟(希宁)

阿里巴巴
资深运维
弹性容量管理探索

传统运维在容量管理问题上处境艰难,成本管控和稳定性中间难以两全,阿里也走过相同的困境。此次演讲将分享阿里在容量管控上转型之路,新一代DevOps容量管理平台引入数据挖掘、机器学习,面向集团BU,在自然态、非自然态业务流量下识别容量风险,保障容量稳定,同时压缩冗余成本。其中包括在压测过程中弹性备容、混部集群中在离线资源分时复用等场景下的具体实践。

演讲提纲

  • 传统运维容量管理的困境
  • 智能弹性伸缩
    • 容量预测
    • 风险识别
    • 自动化伸缩执行
  • 实践场景
    • 日常弹性
    • 边压边弹
    • 混部下分时复用
  • 未来规划
    • 容量管理闭环
    • 无人值守容量自治

演讲收益

  • 了解多元业务场景下自动化容量管理方法;
  • 了解机器学习在容量预测中的探索和应用

by 李培龙

滴滴出行
质量部高级专家工程师&架构团队负责人
滴滴出行海量数据场景下的智能监控与故障定位实践

随着滴滴的高速发展,业务与系统越发复杂,数据及监控指标量也呈指数增长,监控系统自身的稳定性面临更大挑战,我们在监控指标生产、计算、存储方向进行了多项实践,采取了有针对性的技术选型以应对不同的应用场景,使得系统在海量指标存储、高效灵活的聚合计算、异常指标的快速详情关联等方向取得较高的稳定性与较好的应用效果。

监控指标的飞速膨胀给异常检测技术提出了挑战,传统的阈值配置方案已经无法应对,因此我们引入了多项机器学习技术,在智能阈值、三阶指数平滑、概率密度、指标特征挖掘与聚类等方向进行深度实践,初步形成了在无标注条件下对各类指标进行智能异常检测的机制,目前已经覆盖十万级别的监控指标项,并且取得了较好的准确率与召回率平衡;

随着系统复杂度提升,监控报警后故障的定位难度越来越高,定位速度缓慢,我们借鉴Google的Dapper在滴滴落地了系统调用链路追踪系统,同时融合了滴滴自身的司机、乘客与订单的业务链路追踪技术,使得业务与系统故障时可以快速的进行数据关联与追踪分析,精准定位问题根源,整体故障定位效率大幅提升。

演讲提纲

  • 滴滴的监控体系技术架构演进;
  • 基于机器学习的异常检测实践;
  • 基于链路追踪的故障定位实践;

听众受益

  • 海量数据场景下,如何为监控系统进行技术选型;
  • 为降低运维成本,如何借助机器学习技术进行海量指标的异常检测;
  • 如何建设业务与系统的链路追踪机制以提升故障定位效率;

by 张柳青

百度
运维部资深研发工程师
百度智能故障自愈实践

在大型互联网公司,单IDC级故障因为其故障时间长,影响范围大,一直是互联网公司及运维人员心头之痛。构成单IDC故障的原因,除了常见的运营商、IDC、链路等网络层面故障,也包括突增的用户请求、业务服务的容量不足、程序bug、异常的运维变更操作等,都会触发单IDC级业务故障的发生。在传统的运维方式中,由于故障感知判断与容量&流量调度决策的复杂性,通常是人为进行有效止损,但人工介入的时效性会影响服务的快速恢复,而人工决策的不可靠性则可能导致问题的扩大。

为解决这类问题,我们针对百度内外部网络环境建设了基于智能流量调度的单IDC故障自愈能力。结合外网运营商链路监测、内网链路质量监测与业务指标监控构建了全方位故障发现能力,基于百度统一前端(BFE)与内网资源定位服务(BNS)实现了智能流量调度与自动止损能力。同时,基于实时容量预测与实时水位流量来调度自动止损策略与管控风险,从而实现任意单IDC故障时业务均可快速自愈的效果。

演讲提纲

  • 百度网络架构与单IDC故障问题分析; 
  • 故障发现; 
  • 网络故障发现; 
  • 业务故障发现; 
  • 百度流量调度; 
  • 外网流量调度介绍; 
  • 内网流量调度实践; 
  • 单IDC故障自愈实践。

听众受益

  • 了解百度智能异常检测与网络/业务的异常判断策略; 
  • 了解百度内外网流量调度基础设施; 
  • 了解百度单IDC故障自动止损解决方案。

by 杨波

拍拍贷
技术中心框架研发部总监
拍拍贷基础架构的DevOps演进之路

拍拍贷是一家超过十年的互金行业科技公司,近年,不断成长扩大的业务规模对公司的技术交付能力和稳定性等各个方面提出了严峻的挑战。DevOps和微服务架构是近年企业数字化和技术转型升级的最佳实践,拍拍贷从2016年底开始推动公司技术向DevOps研发模式和微服务架构方向转型。

本分享介绍拍拍贷DevOps和微服务基础架构体系总体规划,重点分享2017年基础架构的升级之路和阶段性成果,同时分享2018和未来进一步升级展望。

演讲提纲:

  • 拍拍贷业务和技术架构背景;
  • 拍拍贷DevOps和微服务基础架构体系总体规划;
  • 从0到1,2017基础架构升级之路:
  1. 消息中间件升级
  2. 监控体系升级
  3. 微服务网关升级
  4. 分布式配置中心升级
  5. 微服务框架升级
  • 从1到n,2018和未来基础架构升级展望。

听众受益

  • 如何为成长型技术组织规划支持DevOps研发模式和微服务架构的基础架构体系和升级蓝图;
  • 如何通过基础架构升级,推动DevOps理念和微服务架构在成长型技术组织落地。

by 王肇刚

阿里巴巴
高级技术专家
阿里巴巴故障治理领域的智能运维实践

演讲摘要

本次演讲将介绍智能运维理念在阿里巴巴集团的业务故障管理领域落地的整体思考和实践成果。

从日常技术服务工作中技术工单的智能化分拣,到业务指标时间序列的异常发现;从业务故障影响面的自动确定,到业务给出辅助的故障定位信息;从业务故障等级的智能化判断,到故障快速恢复的智能决策和实施,阿里巴巴集团 全球运行指挥中心事业部(GOC)的技术团队在用技术为业务稳定性服务的过程中,将智能运维的理念应用到了实际的工作当中,取得了很好的业务效果。

本次演讲将整体介绍GOC团队所负责的阿里集团技术服务及故障管理的整体业务流程,以及在智能化、数据驱动的理念指导下的智能运维整体技术架构。进而,基于工单智能分拣、业务故障发现及影响面分析、业务故障辅助定位、故障智能定级和快速恢复等五大场景,从实战角度介绍如何利用数据、算法来解决运维领域的具体业务问题,涉及业务问题的拆解、数据的准备、算法的选型和应用、效果的衡量等内容。最后会基于以上的内容,对后续在智能运维领域的相关工作进行展望,并对智能运维在互联网企业中的落地给出指导性建议。

演讲提纲

  • 阿里巴巴集团全局故障治理业务流程
  • 基于智能化运维的故障治理全流程优化效果
  1. 工单处理效率提升
  2. 业务指标发现的效率和准确率提升
  3. 故障定级的效率和准确率提升
  4. 故障定位的能力及快速切换能力的提升
  • 基于智能运维的阿里巴巴全流程故障治理技术架构
  • 实战案例讲解

1.工单自动分拣

i. 业务背景及问题拆解

ii. 工单自动分类算法选型和实践思路

2.业务故障发现及影响面分析

i. 基于时间序列分析的智能基线 

ii. 自学习和自适应的异常判定

iii. 故障影响面自动分析

3.故障辅助定位

i. 基于实时数据仓库的故障相关可疑事件推送

ii. 基于数据分析的故障根因推荐

4.故障智能定级和快速恢复

i. 业务背景及问题拆解

ii. 基于规则引擎的故障定级策略和快速恢复条件判断

5.后续工作及展望

  • 智能运维落地方案的实施建议

听众收益

  • 通过具体地案例了解到数据和算法在运维领域中应用的实战经验(涵盖时间序列分析、文本分类、规则引擎、实时数据仓库等算法及工程技术领域)。
  • 基于案例和总结,了解到如何基于对现有业务的理解,选择合适的场景来应用智能化的算法并付诸实践。
  • 了解到现在的运维系统和数据应该如何准备和积累,才能够有利于智能算法的引入的落地。
  • 了解到阿里集团在全局故障治理领域的业务模式和运维经验积累。

by 胡忠想

微博
服务化项目架构师&技术负责人
微博应对突发热点事件的弹性调度实践

微博作为当今中文社交媒体的第一品牌,拥有超过3.6亿的月活用户,也是当前社会热点事件传播的最主要平台。而热点事件往往具有不可预测性和突发性,10分钟内可能带来流量的翻倍增长,甚至更大。如何快速应对突发流量的冲击,确保线上服务的稳定性,是一个非常巨大的挑战。

传统的人工值守,手工扩容的运维手段,显然无法满足这一需求。为此,我们的目标是做到系统的自动扩容,在流量增长达到系统的警戒水位线时自动扩容,以应对任意时刻可能爆发的流量增长,确保服务的高可用性。

演讲提纲

  • 突发热点事件所带来的峰值挑战。
  • 微博Web系统弹性调度的演进。
  • 智能弹性调度平台的建设实践。
  • 全链路弹性调度挑战与应对。

听众受益

  • 如何合理的评估在线系统的容量。
  • 如何建设无人值守的全自动化弹性调度平台。
  • 如何用微服务化的思想解决全链路弹性调度的问题。

by 闫二辉

腾讯
专家工程师
腾讯企业级消息中间件DevOps实践

由于消息中间件具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能,因此已经成为服务间通信的核心手段之一。当今市面上有很多主流的消息中间件,如老牌的RabbitMQ,炙手可热的Kafka等。腾讯消息中间件针对公司金融业务打造了基于raft算法的高可靠强一致的分布式消息中间件CMQ,并经过多次春节微信红包、话费充值等海量消息检验;对于大数据领域应用对社区kafka进行技术优化,使得性能更高、延时更小;针对物联网领域自研实现了具备物联网属性的消息中间件MQ for IoT。

本次演讲将结合公司实际业务情况,介绍腾讯消息中间件的诞生背景、核心技术原理,例如副本间的强一致、弹性伸缩、透明升级、跨集群跨园区级别的容灾等,以及作为强一致分布式系统,在迭代过程中从设计到开发、测试、运维、故障定位踩了那些坑、总结那些经验等。最后分享微信红包使用消息队列的最佳实践。

演讲提纲

  • 架构设计中消息中间件应用范围和意义 
  • 从开发角度介绍腾讯消息中间件核心技术原理 
  • 分布式系统对开发、测试、运维的挑战
  • 微信红包中如何使用消息中间件

听众受益

  • 从架构层面了解消息中间件的主要解决的问题 
  • 从消息中间件出发了解分布式系统数据一致性如何保证
  • raft协议在分布式系统中的应用 
  • 开发测试运维分布式系统的难点以及如何应对
  • 了解腾讯内部业务架构如何使用消息队列

极客邦控股(北京)有限公司

北京市朝阳区望京利泽中二路洛娃大厦C座6层1607