DevOps的概念的提出接近10年了,跟敏捷,持续集成,持续部署一样,他是一个方... 展开 >
毛茂德(花名: 如柏),阿里巴巴集团基础架构事业群运维中台负责人,亲历者。当前工作是负责 IDC 建设、网络建设、基础数据库运维、大数据运维,研发协同等事项,并主导设计构建高可靠、高并发、大规模的基础运维平台和应用运维平台。
十余年来坚持不懈的追求研发、测试、运维效率提升,推动DevOps实施落地。现在正致力于打造基于混合云的应用运维无人值守解决方案,以及自动化、数据化、智能化应用运维解决方案。
曾任职于eBay,RedHat,IONA,也是 Apache CXF 初创成员之一。
毛茂德(花名: 如柏),阿里巴巴集团基础架构事业群运维中台负责人,亲历者。当前工作是负责 IDC 建设、网络建设、基础数据库运维、大数据运维,研发协同等事项,并主导设计构建高可靠、高并发、大规模的基础运维平台和应用运维平台。
十余年来坚持不懈的追求研发、测试、运维效率提升,推动DevOps实施落地。现在正致力于打造基于混合云的应用运维无人值守解决方案,以及自动化、数据化、智能化应用运维解决方案。
曾任职于eBay,RedHat,IONA,也是 Apache CXF 初创成员之一。
DevOps 的概念的提出接近10年了,跟敏捷,持续集成,持续部署一样,他是一个方法论,他主要解决的就是如何更快速的发布部署, 如何快速的故障恢复,更低的变更失败,如何缩短业务交付时长,这个概念逐渐深入人心。
提升协作效率,降低开发成本,更稳健可持续的业务运营是DevOps的主旋律。
根据16年DevOps调查报告显示,一个低效的IT组织跟一个高效的IT组织相比,差距可能是200倍,简单的说低效组织发布一个功能,高效组织可能已经发布了200个功能;故障恢复的效率差距可能是几十倍,简单的说高效团队可能几分钟就恢复了故障,低效组织可能需要几个小时。
那么在日益激烈的商业竞争环境下无论多大的体量的公司,这么低效的IT组织注定在商业上也是要失败的。因为这个世界是快鱼吃慢鱼的时代, 已经不是大鱼吃小鱼的时代了。去年Gaterner又提出了AIOps的概念,就是用基于算法来提升运维效率,其实在国内很多公司早就已经践行智能化运维了,在各个运维的场景都有了不同程度的应用。
本专题在介绍传统的DevOps的同时会更偏向于向大家介绍机器学习和算法是如何提升DevOps效率,已经这些技术的实际落地经验。
传统运维在容量管理问题上处境艰难,成本管控和稳定性中间难以两全,阿里也走过相同的困境。此次演讲将分享阿里在容量管控上转型之路,新一代DevOps容量管理平台引入数据挖掘、机器学习,面向集团BU,在自然态、非自然态业务流量下识别容量风险,保障容量稳定,同时压缩冗余成本。其中包括在压测过程中弹性备容、混部集群中在离线资源分时复用等场景下的具体实践。
随着滴滴的高速发展,业务与系统越发复杂,数据及监控指标量也呈指数增长,监控系统自身的稳定性面临更大挑战,我们在监控指标生产、计算、存储方向进行了多项实践,采取了有针对性的技术选型以应对不同的应用场景,使得系统在海量指标存储、高效灵活的聚合计算、异常指标的快速详情关联等方向取得较高的稳定性与较好的应用效果。
监控指标的飞速膨胀给异常检测技术提出了挑战,传统的阈值配置方案已经无法应对,因此我们引入了多项机器学习技术,在智能阈值、三阶指数平滑、概率密度、指标特征挖掘与聚类等方向进行深度实践,初步形成了在无标注条件下对各类指标进行智能异常检测的机制,目前已经覆盖十万级别的监控指标项,并且取得了较好的准确率与召回率平衡;
随着系统复杂度提升,监控报警后故障的定位难度越来越高,定位速度缓慢,我们借鉴Google的Dapper在滴滴落地了系统调用链路追踪系统,同时融合了滴滴自身的司机、乘客与订单的业务链路追踪技术,使得业务与系统故障时可以快速的进行数据关联与追踪分析,精准定位问题根源,整体故障定位效率大幅提升。
在大型互联网公司,单IDC级故障因为其故障时间长,影响范围大,一直是互联网公司及运维人员心头之痛。构成单IDC故障的原因,除了常见的运营商、IDC、链路等网络层面故障,也包括突增的用户请求、业务服务的容量不足、程序bug、异常的运维变更操作等,都会触发单IDC级业务故障的发生。在传统的运维方式中,由于故障感知判断与容量&流量调度决策的复杂性,通常是人为进行有效止损,但人工介入的时效性会影响服务的快速恢复,而人工决策的不可靠性则可能导致问题的扩大。
为解决这类问题,我们针对百度内外部网络环境建设了基于智能流量调度的单IDC故障自愈能力。结合外网运营商链路监测、内网链路质量监测与业务指标监控构建了全方位故障发现能力,基于百度统一前端(BFE)与内网资源定位服务(BNS)实现了智能流量调度与自动止损能力。同时,基于实时容量预测与实时水位流量来调度自动止损策略与管控风险,从而实现任意单IDC故障时业务均可快速自愈的效果。
拍拍贷是一家超过十年的互金行业科技公司,近年,不断成长扩大的业务规模对公司的技术交付能力和稳定性等各个方面提出了严峻的挑战。DevOps和微服务架构是近年企业数字化和技术转型升级的最佳实践,拍拍贷从2016年底开始推动公司技术向DevOps研发模式和微服务架构方向转型。
本分享介绍拍拍贷DevOps和微服务基础架构体系总体规划,重点分享2017年基础架构的升级之路和阶段性成果,同时分享2018和未来进一步升级展望。
演讲提纲:
本次演讲将介绍智能运维理念在阿里巴巴集团的业务故障管理领域落地的整体思考和实践成果。
从日常技术服务工作中技术工单的智能化分拣,到业务指标时间序列的异常发现;从业务故障影响面的自动确定,到业务给出辅助的故障定位信息;从业务故障等级的智能化判断,到故障快速恢复的智能决策和实施,阿里巴巴集团 全球运行指挥中心事业部(GOC)的技术团队在用技术为业务稳定性服务的过程中,将智能运维的理念应用到了实际的工作当中,取得了很好的业务效果。
本次演讲将整体介绍GOC团队所负责的阿里集团技术服务及故障管理的整体业务流程,以及在智能化、数据驱动的理念指导下的智能运维整体技术架构。进而,基于工单智能分拣、业务故障发现及影响面分析、业务故障辅助定位、故障智能定级和快速恢复等五大场景,从实战角度介绍如何利用数据、算法来解决运维领域的具体业务问题,涉及业务问题的拆解、数据的准备、算法的选型和应用、效果的衡量等内容。最后会基于以上的内容,对后续在智能运维领域的相关工作进行展望,并对智能运维在互联网企业中的落地给出指导性建议。
1.工单自动分拣
i. 业务背景及问题拆解
ii. 工单自动分类算法选型和实践思路
2.业务故障发现及影响面分析
i. 基于时间序列分析的智能基线
ii. 自学习和自适应的异常判定
iii. 故障影响面自动分析
3.故障辅助定位
i. 基于实时数据仓库的故障相关可疑事件推送
ii. 基于数据分析的故障根因推荐
4.故障智能定级和快速恢复
i. 业务背景及问题拆解
ii. 基于规则引擎的故障定级策略和快速恢复条件判断
5.后续工作及展望
微博作为当今中文社交媒体的第一品牌,拥有超过3.6亿的月活用户,也是当前社会热点事件传播的最主要平台。而热点事件往往具有不可预测性和突发性,10分钟内可能带来流量的翻倍增长,甚至更大。如何快速应对突发流量的冲击,确保线上服务的稳定性,是一个非常巨大的挑战。
传统的人工值守,手工扩容的运维手段,显然无法满足这一需求。为此,我们的目标是做到系统的自动扩容,在流量增长达到系统的警戒水位线时自动扩容,以应对任意时刻可能爆发的流量增长,确保服务的高可用性。
由于消息中间件具有低耦合、可靠投递、广播、流量控制、最终一致性等一系列功能,因此已经成为服务间通信的核心手段之一。当今市面上有很多主流的消息中间件,如老牌的RabbitMQ,炙手可热的Kafka等。腾讯消息中间件针对公司金融业务打造了基于raft算法的高可靠强一致的分布式消息中间件CMQ,并经过多次春节微信红包、话费充值等海量消息检验;对于大数据领域应用对社区kafka进行技术优化,使得性能更高、延时更小;针对物联网领域自研实现了具备物联网属性的消息中间件MQ for IoT。
本次演讲将结合公司实际业务情况,介绍腾讯消息中间件的诞生背景、核心技术原理,例如副本间的强一致、弹性伸缩、透明升级、跨集群跨园区级别的容灾等,以及作为强一致分布式系统,在迭代过程中从设计到开发、测试、运维、故障定位踩了那些坑、总结那些经验等。最后分享微信红包使用消息队列的最佳实践。
极客邦控股(北京)有限公司
北京市朝阳区望京利泽中二路洛娃大厦C座6层1607