FreeWheel OLAP实践

所属专题:大数据平台架构

嘉宾 : 姜冰 | FreeWheel数据平台首席工程师

会议室 : 第二会议厅B

讲师介绍

专题演讲嘉宾:姜冰

FreeWheel 数据平台首席工程师

毕业于中科院计算所,获计算机硕士学位,现任FreeWheel数据平台首席工程师,全面负责大数据平台的架构和研发工作。

曾供职于Yahoo Hadoop Team,拥有超过8年的大数据系统的研究和实战经验,技术涉猎广泛,对分布式系统、大数据存储、消息队列等领域有深入的理解和实战经验,并擅长排查解决分布式系统的疑难问题。

议题介绍

地点:第二会议厅B
所属专题:大数据平台架构

演讲:FreeWheel OLAP实践

FreeWheel是一家主要服务于北美和欧洲客户的视频广告技术公司,为大型电视媒体和优质内容供应商提供企业级的视频广告解决方案,每天完成近10亿次视频广告投放,积累了大量的视频观看和广告投放数据。

在公司的大数据平台之上,我们构建以Presto为核心的OLAP,满足实时查询的要求。随着业务对于Presto的增长,效率、延迟以及数据管理成为制约Presto OLAP应用的重要问题。

在实践中,我们需要解决下面几个问题:

  1. 数据发布的原子性。原始的业务日志分为2部分:实时部分和近实时部分,这两部分数据数据边界的切分需要保证原子性。
  2. 数据索引的开销。近实时部份使用parquet格式存储,针对业务特点做了分区/bucket,内建索引不能充分利用这些特点;而且由于文件数量大,查询时扫描索引开销很大,效率比较低。
  3. Presto资源和业务需求之间的矛盾。

基于此,我们实现了Metadata Service和CacheLayer Service,以及实现Presto为核心的OLAP服务在AWS上弹性部署:

  • Metadata services - 用来处理数据发布的原子性,支持index online和offline的混合部署。
  • Cache Layer services - 切分查询,按时间汇总,只计算增量部分。
  • Presto on AWS 混合云部署架构 - 根据业务需求弹性扩展。

通过这些工作,极大地提升了SQL执行效率,全面支撑数据产品服务。

演讲提纲

  • FreeWheel OLAP查询的特点
  • 遇到问题和挑战。
  • 针对问题提出的三个解决方案: 
    • Metadata Service 
    • cache layer 
    • Presto 混合云弹性部署
  • 总结

听众受益

  • 了解如何通过metadata service优化OLAP查询。 
  • 了解如何在OLAP之上构建缓存服务。 
  • 了解OLAP公有云部署架构。

极客邦控股(北京)有限公司

北京市朝阳区望京利泽中二路洛娃大厦C座6层1607