开源版Spark距离公有云服务有多远

所属专题:大数据平台架构实践

所属领域:

嘉宾 : 王鹏飞 | 华为CloudBUEI产品部 数据分析域架构师

会议室 : 爱晚亭

讲师介绍

专题演讲嘉宾:王鹏飞

华为CloudBU EI产品部 数据分析域架构师

目前在华为Cloud BU,任数据分析域架构师,带队研发了数据查询服务。数据查询服务向用户提供完整的Spark生态,研发过程中,技术上遇到了很多开源社区和重型Serverless服务需求之间的问题,此次演讲会分享给大家。

在大数据领域工作了9年,在第一线参与了阿里巴巴MaxCompute(ODPS)的演进,带队进行查询优化器和执行引擎的研发工作,技术面上撞墙踩坑无数。贴面式服务了阿里金融早期的阿里小贷,也经历了阿里巴巴集团的登月项目,在客户面上也积累了大量经验。

议题介绍

地点:爱晚亭
所属专题:大数据平台架构实践
所属领域:

演讲:开源版Spark距离公有云服务有多远

Apache Spark作为最火的大规模数据处理引擎之一,进步神速,它不仅在互联网公司,在传统行业(如银行)的使用都非常广泛。随着云时代的到来,把Spark搬到云上这件事,主要的云服务提供商都在做,比如AWS/Aliyun的EMR、华为云的MRS,但这种模式有几个缺点:

  1. 对中小规模用户,成本上浪费严重,管控节点开销占比过高;
  2. 和其他云服务接入很生硬,大多数需要用户自己开发;
  3. 集群和作业调优需要用户自己来做,除非够大,否则不会有专业团队贴脸服务。

Serverless化的Spark服务是解决问题的王道,但是开源版本的Spark在企业级功能、规模、安全性、成本等方面颇有差距,这次分享主要站在云计算实践者的角度来分析这些差距都是什么和解决办法。

演讲提纲

  • Serverless VS E-MapReduce
  • 规模和可扩展性
  • 用户代码和系统安全
  • 数据湖存储架构
  • 企业级特性
  • 硬件的使用
  • 和Carbon存储系统的集成
  • 细节决定成败

听众受益

  • 社区忽略的方面,比如系统承载规模、代码安全、企业级特性往往在云产品上是最大的门槛;
  • 互联网时代的大数据,硬件的使用往往能带来意想不到的价值;
  • 工程问题:开源产品云化最大的“坑”。
想要批量报名或更多优惠?
立即联系票务报名小助手豆包
或致电:010-84780850