大型分布式系统架构

会议室:巴塞罗那厅
出品人:方建平

从长远发展角度来看,大规模服务化场景下分布式系统架构可以有效地对流量实施管制,避... 展开 >

专题出品人:方建平

美团点评 技术总监

致力于大型互联网分布式后台技术架构建设相关工作近十年。于2014年加入美团,目前主要负责美团外卖的后端技术。在美团外卖时期,从无到有,设计并主导构建了高效的分布式外卖后端技术架构体系,支撑了外卖业务背后亿级用户日访问处理请求。个人对大型分布式服务建设过程中,不同阶段所需要解决的关键问题,以及对应的解决方案,有较多的认知与实践。 

在加入美团之前,任职于百度,主要参与负责百度开放平台、移动云平台等后端服务技术架构与团队管理工作。

ArchSummit采访了方建平老师,详见《在架构师眼里,一份美团外卖是如何做出来的?》

地点:巴塞罗那厅

专题:大型分布式系统架构

从长远发展角度来看,大规模服务化场景下分布式系统架构可以有效地对流量实施管制,避免大流量对系统产生较大冲击,确保核心业务的稳定运行。那么分布式系统架构落地过程需要突破哪些瓶颈,企业应该如何实施服务治理?本专题会针对这些技术问题进行解答。

by 王耀

百度云
架构师,IaaS方向技术负责人

各个业务线上有很多的有状态服务单点,对线上服务都是潜在的隐患,如何低成本改造一直是服务高可用建设中的核心话题。各式各样分布式存储系统实现过程中都需要考虑分片、复制、修复、选主、均衡等问题,如何标准化实现并解决这些共性问题也是分布式存储系统设计的一个目标。

Raft协议中构建的复制状态机,为解决上面这些问题提供了便捷的方式。Raft复制状态机能够轻松将有状态服务单点的状态机转化为多副本复制状态机,从而实现这些单点服务的高可用改造;也能够快速实现分布式存储系统中单数据分片的副本维护,可以更专注存储引擎的设计,通过配合分片、放置和均衡等工作,快速搭建出一个分布式存储系统。

为了满足百度对一致性协议的需求,我们设计实现了一个功能完备的高性能Raft C++库———braft,对Raft协议做了一些强化以满足实际需求,对实现细节进行细致优化满足性能需求。braft在百度内已经有一些元信息模块高可用和分布式存储场景中成功的应用案例,比如虚机管理系统、容器管理系统、小批量任务调度系统、分布式块存储、分布式文件存储和分布式NewSQL等系统。

主要内容:

a) braft诞生的背景
b) braft设计实现中的思考
c) braft在百度内部的应用

by 宋斌

美团点评
资深技术专家

美团外卖发展了4-5年,即时物流的摸索也经历了3年的时间,业务从0孵化到初具规模,我们在这个过程中积累了一些分布式高并发系统的建设经验。最主要的收获有两点:

1、即时物流业务,对故障和高延迟的容忍度极低,业务复杂度的提升,也要求系统具备分布式、可扩展、可容灾的能力;外卖阶段性的逐步实施分布式系统的架构升级,最终解决了系统宕机的风险;本次分享会从 即时物流与传统物流的对比调研,即时物流从0到1的架构演进,即时物流的微服务实践,即时物流在单元化、分布式、异地容灾等方面的探索和实践等多方面,介绍即时物流分布式系统架构的设计方案和原则。

2、围绕成本、效率、体验核心三要素,即时物流体系大量结合AI,从定价、ETA、调度、运力规划、运力干预、补贴、核算、语音交互、LBS挖掘、业务运维、指标监控等方面,业务突破结合架构升级,来达到促规模、保体验、降成本的效果。在这个过程中,沉淀出了很多卓有成效的成果,例如:算法数据平台、智能业务运维平台、供需匹配引擎、运力规划架构。

演讲提纲:

  1. 即时物流行业的发展和现状
  2. 面临的技术问题和挑战
  3. 从0起步的美团外卖即时物流体系的建设历程
  4. 实践过程中关于架构、分布式的思考和演进
  5. 从产品策略型的系统演进到智能系统过程中,核心技术能力和平台沉淀
  6. 未来分布式架构可能遇到的挑战

听众受益点:

  1. 在垂直行业领域内,了解即时物流分布式架构的演进经验
  2. 结合机器学习,了解美团配送在智能物流领域的架构探索
  3. 从稳定性保障角度,高并发的履约交易系统是如何避免故障,解决宕机风险的

by 武永胜

Pinterest
Head of Big Data and Machine Learning Platform

Scaling Pinterest

In this talk, Yongsheng will cover how they scale the online infrastructure at Pinterest in the past 8 years to serve 200-300M MAUs. Over the years, online infrastructure at Pinterest has evolved from a Python Django application on a single MySQL instance in 2010 to a modern microservice-based architecture. Yongsheng will cover the following key technologies that allows Pinterest to horizontally scale to serve hundreds of millions of users with great user experiences:

  • Microservice framework, powered by Twitter Finagle with highly resilient service discovery and real-time configuration management systems built on top of Apache Zookeeper.
  • Pinlater, an asynchronous job processing framework, open sourced by Pinterest, which embraces idempotency/commutativity, and allows them to execute non-critical part of request processing logic asynchronous reliably to deliver delightful online user experiences.
  • Distributed caching, storage and serving systems.
  • Pinterest adopted caching proxy, Mcrouter, open sourced by Facebook, to enable AZ failure resilient, highly consistent, and highly performant distributed caching system.
  • Pinterest uses Apache HBase and sharded MySQL to deliver a homegrown distributed storage system with integrated caching layer, code named Zen, to enable rapid product innovations in self-serviced manner through graph data model. This system was inspired by TAO and Dragon from Facebook.
  • Scorpion Serving, a high throughput, low latency ML serving system at Pinterest powered by C++, Folly, and RocksDB, which scores tens of millions of (user, pin) pairs per second with P99 latency less than 20ms.
  • Muse: a homegrown search engine, implemented in C++, which Pinterest used to replace Apache Solr and Apache Lucene to deliver high throughput, low long-tail latency search at scale, with capability of real-time indexing, as services to the entire Pinterest engineering.

As their business grows, Pinterest needed to address the business continuity risk of single geo region outage. Yongsheng will also share the major changes which they had to make to enable Pinterest to serve active-active across multiple geo locations with strong consistency between caching and persistent storage tiers.

Yongsheng will wrap up his talk with their future plan, and key learnings acquired throughout the years as they work on scaling online infrastructure at Pinterest to enable hundreds of millions of people to discover and do what they love.

参考译文:

在本演讲中,永胜老师会分享在过去的8年他们服务 200-300M MAUs 过程中,是如何扩展 Pinterest 在线基础设施架构的。经过多年迭代,Pinterest 的在线基础设施从2010年的一个基于单个 MySQL 实例的 Python Django 应用,不断演进成最新的基于微服务的架构体系。永胜会分享使 Pinterest 能够横向扩展,为数以亿计的用户提供卓越用户体验的关键技术点:

  1. 微服务框架,由 Twitter Finagle 提供支持,具有高度弹性的服务发现和基于 Apache Zookeeper 构建的实时配置管理系统。
  2. Pinlater 是一个异步任务处理框架,由 Pinterest 开源,包含幂等/交换性,并允许它们执行非关键部分的请求处理逻辑,以提供高质量的在线用户体验。
  3. 分布式缓存,存储和服务系统:
    • Pinterest 采用了​​由 Facebook 开源的缓存代理 Mcrouter,以实现 AZ 失效弹性,高度一致和高性能的分布式缓存系统。
    • Pinterest 使用 Apache HBase 和 MySQL 将分散式存储系统与集成缓存层(代号为 Zen)分离开来,通过图形数据模型以自助服务的方式实现快速产品创新。这个系统受 Facebook 的 TAO 和 Dragon 的启发。
    • Scorpion Serving 是一款由 C++,Folly 和 RocksDB 提供支持的高吞吐量,低延迟 ML 服务系统,每秒可以获得数千万用户配对,P99延迟小于20ms。
  4. Muse: 这是Pinterest内部研发的搜索引擎,采用 C++实现,Pinterest 用于替代 Apache Solr 和 Apache Lucene,以提供高吞吐量,低延迟大规模搜索,具有实时索引功能,为整个Pinterest 工程提供服务。

随着业务的增长,Pinterest 需要解决单个地理区域系统故障的业务连续性风险。永胜也将分享他们必须做出的主要变化,以确保 Pinterest 能够在多个地理位置之间积极主动地进行服务,并且在缓存和持久存储层之间具有强大的一致性。

永胜会以未来计划开始他的演讲,以及多年来致力于在Pinterest上扩展在线基础设施所获得的关键知识,帮助了数以亿计的人能够发现并做他们热爱的事。

by 黄浩

菜鸟网络
资深技术专家

菜鸟乃至阿里巴巴在全球化进程中面临的全球分布式架构的问题以及仓储系统种独特场景下云计算的不足,全面回顾一二十年来整个分布式系统架构的演进(从C/S-B/S-分布式系统-网格计算-云计算,包括目标、定位、场景),设计规划菜鸟下一代分布式系统架构,会结合传统云计算PaaS/BaaS以及边缘计算,并应用在全球多域体系。

演讲提纲

  1. 二十年来分布式系统架构的发展与优劣势对比
  2. 目前主流分布式架构体系的构成域思考
  3. 菜鸟乃至阿里巴巴系统架构面临的问题与下一步的思考
  4. 下一代分布式系统架构的设计理念、核心构成与关键技术挑战
  5. 菜鸟的实践-全球多域基于混合云的分布式系统架构

听众受益

  1. 从来没有一个演讲和案例会从全球多域的角度去看待分布式架构
  2. 了解到云计算2.0的发展方向
  3. 跳出传统的单域可扩展性、稳定性去看未来的系统架构
  4. 真正学习和了解到架构理念,以及架构思路,而不是一种可抄袭模仿的具体架构
想要批量报名或更多优惠?
立即联系票务报名小助手豆包
或致电:010-84780850