目前在华为Cloud BU,任数据分析域架构师,带队研发了数据查询服务。数据查询服务向用户提供完整的Spark生态,研发过程中,技术上遇到了很多开源社区和重型Serverless服务需求之间的问题,此次演讲会分享给大家。
在大数据领域工作了9年,在第一线参与了阿里巴巴MaxCompute(ODPS)的演进,带队进行查询优化器和执行引擎的研发工作,技术面上撞墙踩坑无数。贴面式服务了阿里金融早期的阿里小贷,也经历了阿里巴巴集团的登月项目,在客户面上也积累了大量经验。
目前在华为Cloud BU,任数据分析域架构师,带队研发了数据查询服务。数据查询服务向用户提供完整的Spark生态,研发过程中,技术上遇到了很多开源社区和重型Serverless服务需求之间的问题,此次演讲会分享给大家。
在大数据领域工作了9年,在第一线参与了阿里巴巴MaxCompute(ODPS)的演进,带队进行查询优化器和执行引擎的研发工作,技术面上撞墙踩坑无数。贴面式服务了阿里金融早期的阿里小贷,也经历了阿里巴巴集团的登月项目,在客户面上也积累了大量经验。
Apache Spark作为最火的大规模数据处理引擎之一,进步神速,它不仅在互联网公司,在传统行业(如银行)的使用都非常广泛。随着云时代的到来,把Spark搬到云上这件事,主要的云服务提供商都在做,比如AWS/Aliyun的EMR、华为云的MRS,但这种模式有几个缺点:
Serverless化的Spark服务是解决问题的王道,但是开源版本的Spark在企业级功能、规模、安全性、成本等方面颇有差距,这次分享主要站在云计算实践者的角度来分析这些差距都是什么和解决办法。