从长远发展角度来看,大规模服务化场景下分布式系统架构可以有效地对流量实施管制,避... 展开 >
致力于大型互联网分布式后台技术架构建设相关工作近十年。于2014年加入美团,目前主要负责美团外卖的后端技术。在美团外卖时期,从无到有,设计并主导构建了高效的分布式外卖后端技术架构体系,支撑了外卖业务背后亿级用户日访问处理请求。个人对大型分布式服务建设过程中,不同阶段所需要解决的关键问题,以及对应的解决方案,有较多的认知与实践。
在加入美团之前,任职于百度,主要参与负责百度开放平台、移动云平台等后端服务技术架构与团队管理工作。
ArchSummit采访了方建平老师,详见《在架构师眼里,一份美团外卖是如何做出来的?》
从长远发展角度来看,大规模服务化场景下分布式系统架构可以有效地对流量实施管制,避免大流量对系统产生较大冲击,确保核心业务的稳定运行。那么分布式系统架构落地过程需要突破哪些瓶颈,企业应该如何实施服务治理?本专题会针对这些技术问题进行解答。
各个业务线上有很多的有状态服务单点,对线上服务都是潜在的隐患,如何低成本改造一直是服务高可用建设中的核心话题。各式各样分布式存储系统实现过程中都需要考虑分片、复制、修复、选主、均衡等问题,如何标准化实现并解决这些共性问题也是分布式存储系统设计的一个目标。
Raft协议中构建的复制状态机,为解决上面这些问题提供了便捷的方式。Raft复制状态机能够轻松将有状态服务单点的状态机转化为多副本复制状态机,从而实现这些单点服务的高可用改造;也能够快速实现分布式存储系统中单数据分片的副本维护,可以更专注存储引擎的设计,通过配合分片、放置和均衡等工作,快速搭建出一个分布式存储系统。
为了满足百度对一致性协议的需求,我们设计实现了一个功能完备的高性能Raft C++库———braft,对Raft协议做了一些强化以满足实际需求,对实现细节进行细致优化满足性能需求。braft在百度内已经有一些元信息模块高可用和分布式存储场景中成功的应用案例,比如虚机管理系统、容器管理系统、小批量任务调度系统、分布式块存储、分布式文件存储和分布式NewSQL等系统。
主要内容:
a) braft诞生的背景
b) braft设计实现中的思考
c) braft在百度内部的应用
美团外卖发展了4-5年,即时物流的摸索也经历了3年的时间,业务从0孵化到初具规模,我们在这个过程中积累了一些分布式高并发系统的建设经验。最主要的收获有两点:
1、即时物流业务,对故障和高延迟的容忍度极低,业务复杂度的提升,也要求系统具备分布式、可扩展、可容灾的能力;外卖阶段性的逐步实施分布式系统的架构升级,最终解决了系统宕机的风险;本次分享会从 即时物流与传统物流的对比调研,即时物流从0到1的架构演进,即时物流的微服务实践,即时物流在单元化、分布式、异地容灾等方面的探索和实践等多方面,介绍即时物流分布式系统架构的设计方案和原则。
2、围绕成本、效率、体验核心三要素,即时物流体系大量结合AI,从定价、ETA、调度、运力规划、运力干预、补贴、核算、语音交互、LBS挖掘、业务运维、指标监控等方面,业务突破结合架构升级,来达到促规模、保体验、降成本的效果。在这个过程中,沉淀出了很多卓有成效的成果,例如:算法数据平台、智能业务运维平台、供需匹配引擎、运力规划架构。
演讲提纲:
听众受益点:
Scaling Pinterest
In this talk, Yongsheng will cover how they scale the online infrastructure at Pinterest in the past 8 years to serve 200-300M MAUs. Over the years, online infrastructure at Pinterest has evolved from a Python Django application on a single MySQL instance in 2010 to a modern microservice-based architecture. Yongsheng will cover the following key technologies that allows Pinterest to horizontally scale to serve hundreds of millions of users with great user experiences:
As their business grows, Pinterest needed to address the business continuity risk of single geo region outage. Yongsheng will also share the major changes which they had to make to enable Pinterest to serve active-active across multiple geo locations with strong consistency between caching and persistent storage tiers.
Yongsheng will wrap up his talk with their future plan, and key learnings acquired throughout the years as they work on scaling online infrastructure at Pinterest to enable hundreds of millions of people to discover and do what they love.
参考译文:
在本演讲中,永胜老师会分享在过去的8年他们服务 200-300M MAUs 过程中,是如何扩展 Pinterest 在线基础设施架构的。经过多年迭代,Pinterest 的在线基础设施从2010年的一个基于单个 MySQL 实例的 Python Django 应用,不断演进成最新的基于微服务的架构体系。永胜会分享使 Pinterest 能够横向扩展,为数以亿计的用户提供卓越用户体验的关键技术点:
随着业务的增长,Pinterest 需要解决单个地理区域系统故障的业务连续性风险。永胜也将分享他们必须做出的主要变化,以确保 Pinterest 能够在多个地理位置之间积极主动地进行服务,并且在缓存和持久存储层之间具有强大的一致性。
永胜会以未来计划开始他的演讲,以及多年来致力于在Pinterest上扩展在线基础设施所获得的关键知识,帮助了数以亿计的人能够发现并做他们热爱的事。
菜鸟乃至阿里巴巴在全球化进程中面临的全球分布式架构的问题以及仓储系统种独特场景下云计算的不足,全面回顾一二十年来整个分布式系统架构的演进(从C/S-B/S-分布式系统-网格计算-云计算,包括目标、定位、场景),设计规划菜鸟下一代分布式系统架构,会结合传统云计算PaaS/BaaS以及边缘计算,并应用在全球多域体系。