百度MPP数据仓库Palo开源架构解读与应用

所属专题:大数据平台架构

嘉宾 : 牟宇航 | 百度大数据部技术经理

会议室 : 第二会议厅B

讲师介绍

专题演讲嘉宾:牟宇航

百度 大数据部技术经理

牟宇航,百度大数据部工程架构团队经理,先后领导过数据平台团队,OLAP 团队、在线数据团队。目前负责大数据基础工程技术和产品的研发,涉及数据传输、批量和流失数据处理、在线数据服务、数据挖掘等技术领域。所负责的产品中,百度MPP数据仓库 Palo,百度版Elasticsearch 均已对业界开源。

议题介绍

地点:第二会议厅B
所属专题:大数据平台架构

演讲:百度MPP数据仓库Palo开源架构解读与应用

业务量增加,数据量翻番,需要面对百TB ~ PB级别的数据量,且是结构化数据,同时需要达到毫秒/秒级分析。在这种情况下寻求新的解决方案选型:mpp(Impala)+ mesa的工程实现。这种选型在技术特性上可以支持MySQL、高并发小查询、大查询高吞吐、高容错、列式存储、物化视图、在线表结构修改等特征需求。实施后效果很明显,在演讲中会介绍百度内部使用情况,目前开源的使用情况,并会和GP、Impala+kudu的性能做些对比。

演讲提纲:

  • Palo背景介绍
  • 适用场景&案例介绍
  • Palo整体架构
  • Palo关键技术
  • Palo对外开放

听众受益:搭建OLAP系统及数据仓库的利器;了解Palo设计原理及内部技术实现。

极客邦控股(北京)有限公司

北京市朝阳区望京利泽中二路洛娃大厦C座6层1607