Google 基础架构部门高级工程师,承担系统架构和实验架构研发工作。作为主要负责人参与研发和上线 Google 新一代基于微服务的搜索架构索引系统,系统并发度数兆级别,存储量级数百 PB 级,影响整体Google 网页搜索结果。
Google 基础架构部门高级工程师,承担系统架构和实验架构研发工作。作为主要负责人参与研发和上线 Google 新一代基于微服务的搜索架构索引系统,系统并发度数兆级别,存储量级数百 PB 级,影响整体Google 网页搜索结果。
分布式数据处理系统是对后端数据处理和 serve 架构的统称。比如用于AI/机器学习/推荐系统的 feature 数据处理 pipeline,大规模交易/订单处理系统,新闻 news feed 的处理存储架构等均属于该范畴。常见的系统如 Kafka 属于这个范畴。
分布式数据系统主要涉及数据的多源摄取、清洗、索引、存储和数据品质控制。结合中心化的数据存储和数据提取层,这些数据可用于驱动众多业务,如视频/新闻/网页/兴趣推荐系统,基于人工智能的翻译系统,基于倒排索引的搜索系统,基于结构化查询的广告业务数据分析等。高质量和大体量的数据和架构保证了最终交付的业务准确性和有效性,极大地提高了产品的商业竞争力。
自微服务概念诞生以后,新一代数据处理系统的灵活性得到了极大地提升。最重要的一点就是无噪音实时A/B实验的可能性 -- 分布在各个微服务节点的数据和代码覆盖层使得大规模准确性实验从传统的数周至数月缩短至数小时,这对于新的业务迭代和发布起到了至关重要的作用。
演讲提纲:
听众受益点: