大数据平台架构

会议室:第二会议厅B
出品人:鞠大升

大数据是人工智能应用的一大基础,如何建设好自己的大数据平台,提高数据处理的质量与... 展开 >

专题出品人:鞠大升

美团点评 研究员

鞠大升,美团点评研究员,有接近10年网络爬虫、基础架构和大数据平台从业经验。2008年至2012年在百度任开发工程师,参与过网络爬虫和分布式储存系统的开发。2013年至今在美团点评基础数据部数据平台组,专注于构建大数据实时计算的数据传输通道、平台和实时应用。

专题出品人:鞠大升

美团点评 研究员

鞠大升,美团点评研究员,有接近10年网络爬虫、基础架构和大数据平台从业经验。2008年至2012年在百度任开发工程师,参与过网络爬虫和分布式储存系统的开发。2013年至今在美团点评基础数据部数据平台组,专注于构建大数据实时计算的数据传输通道、平台和实时应用。

地点:第二会议厅B

专题:大数据平台架构

大数据是人工智能应用的一大基础,如何建设好自己的大数据平台,提高数据处理的质量与效率,自然是重中之重。一起看看各大互联网公司在建设大数据平台的过程中积累的一手经验。

by 吴惠君

Twitter
Data Platform Engineer
实时流系统Heron的异常检测和恢复

应近年来大规模实时分析的需求,很多流处理系统被开发出来。Twitter Heron开源系统就是其中的代表项目之一。这类系统要求在软件或者硬件失败的极端情况下能有较好的服务水平。为了达到这种要求,Twitter Heron系统添加了Dhalion异常检测和恢复框架来保障Heron系统的服务水平。

Dhalion异常检测和恢复框架使用polocy(策略)来整合detector(检测器)和resolver(执行器)模块。整个系统非常灵活。通过替换policy或者detector或者resolver能进行各种检测和恢复任务,包括检测back pressure(反压)指标并进行扩容,和检测负载指标并重新调度容器等等。Dhalion框架的应用给Heron系统带来了初步的自行规范调整机制。

演讲提纲

1. Heron Overview

2. Recent Improvements (2016-2017)

  • Scheduler Framework
  • Stateful Processing
  • High Level DSL
  • Python Heron
  • Dhalion

3. Self Regulating Challenges

  • Self-Tuning
  • Self-Stabilizing
  • Self-Healing

4. Dhalion Framework

  • Health Manager
  • Action Log
  • Action Blacklist

5. Case Study

  • Dynamic Resource Provisinging
  • Satifying Throughput SLOs

听众收益

  • 流处理系统中的自行规范调整的挑战
  • Dhalion异常检测与恢复框架
  • Twitter Heron系统通过反压和负载指标进行扩容/减容的经验

by 孙业锐

美团点评
高级技术专家&Apache Kylin PMC
美团点评用户行为分析系统的构建与优化

用户行为分析是数据分析中非常重要的一项内容,在统计活跃用户,分析留存和转化率,改进产品体验,推动用户增长等领域有重要作用,常见的方法包括漏斗分析,路径分析,分群分析等。美团点评每天收集的用户行为日志达到数百亿条,如何在海量数据集上实现对用户行为的快速灵活分析,成为一个巨大的挑战。为此,我们提出并实现了一套面向海量数据的用户行为分析解决方案,将单次分析的耗时从小时级降低到秒级,极大的改善了分析体验,提升了分析人员的工作效率。

本次演讲以用户行为分析场景中最常见的“有序漏斗”需求为例,深入描述了解决方案的核心思路和工程架构,重点呈现构建分布式系统的选型权衡,以及分布式系统的优化方法。

演讲提纲:

  • 用户行为分析的需求和挑战 
  • 解决方案的构建与优化 
  1. 核心思路 
  2. 架构选型 
  3. 性能优化 
  • 总结与未来计划

听众受益

  • 了解如何构建一个用于海量数据的用户行为分析系统; 
  • 了解从算法到工程的落地过程和选型权衡; 
  • 了解分布式系统的常用优化方法;

by 姜冰

FreeWheel
数据平台首席工程师
FreeWheel OLAP实践

FreeWheel是一家主要服务于北美和欧洲客户的视频广告技术公司,为大型电视媒体和优质内容供应商提供企业级的视频广告解决方案,每天完成近10亿次视频广告投放,积累了大量的视频观看和广告投放数据。

在公司的大数据平台之上,我们构建以Presto为核心的OLAP,满足实时查询的要求。随着业务对于Presto的增长,效率、延迟以及数据管理成为制约Presto OLAP应用的重要问题。

在实践中,我们需要解决下面几个问题:

  1. 数据发布的原子性。原始的业务日志分为2部分:实时部分和近实时部分,这两部分数据数据边界的切分需要保证原子性。
  2. 数据索引的开销。近实时部份使用parquet格式存储,针对业务特点做了分区/bucket,内建索引不能充分利用这些特点;而且由于文件数量大,查询时扫描索引开销很大,效率比较低。
  3. Presto资源和业务需求之间的矛盾。

基于此,我们实现了Metadata Service和CacheLayer Service,以及实现Presto为核心的OLAP服务在AWS上弹性部署:

  • Metadata services - 用来处理数据发布的原子性,支持index online和offline的混合部署。
  • Cache Layer services - 切分查询,按时间汇总,只计算增量部分。
  • Presto on AWS 混合云部署架构 - 根据业务需求弹性扩展。

通过这些工作,极大地提升了SQL执行效率,全面支撑数据产品服务。

演讲提纲

  • FreeWheel OLAP查询的特点
  • 遇到问题和挑战。
  • 针对问题提出的三个解决方案: 
    • Metadata Service 
    • cache layer 
    • Presto 混合云弹性部署
  • 总结

听众受益

  • 了解如何通过metadata service优化OLAP查询。 
  • 了解如何在OLAP之上构建缓存服务。 
  • 了解OLAP公有云部署架构。

by Zhaowei Hou

Facebook
Tech Lead Manager
数据分析平台的挑战和解决方案

Business intelligence & analytics play important roles in the tech industry, especially in data-driven companies like Facebook.  As the company evolves, different business teams have their own ways of building their business reports. Because data demands also grow rapidly, teams face similar strategic and technical challenges in terms of data consistency, efficiency of data delivery and data security.
The data delivery platform is targeted to address these challenges. We use query templates and the definition of metrics to solve the data consistency problem, and the Spark SQL-based caching service to solve the data delivery efficiency problem, with security naturally integrated into the metric definition.

演讲提纲

  • Problems/Challenges
  1. Same metric has different interpretation in different business domains
  2. Data queries live in everywhere in codebase
  3. Surfacing up to TB of data to dashboards in real time
  4. Data security (access control to dashboards/reports)
  • The data delivery platform
  1. Overview
  2. The framework
  3. Query template & Metric engine
  4. SQL Caching 
  5. Data Security 
  • Summary
  • Q&A

参考翻译:

商业智能和商业分析(Business Intelligence & Analytics)在技术领域扮演着重要的角色,尤其是在像Facebook这样的数据驱动型企业。随着公司不断的发展壮大,不同的商业团队根据自身需求和方式进行商业报告,因此,伴随着大家对数据的需求越来越大,在数据一致性、数据查询效率和数据安全层面上,团队们面临着相似的战略规划和技术挑战。

这个数据递送平台 (Data Delivery Platform) 就是为了对症下药解决这些挑战而建立的,我们团队使用查询模版和Metrics定义来解决数据一致性问题,利用Spark SQL 解决数据分发效率的问题,与此同时,安全性是自然而然贯穿到metric定义中的。

演讲提纲

  • 问题和挑战
  1. 同样的Metric在不同的业务领域有不同的解释
  2. 代码库要承担高强度的实时数据查询
  3. 将多达TB级数据实时呈现到数据报表
  4. 数据安全(对数据报表的访问控制)
  • 数据递送平台 (Data Delivery Platform)
  1. 概览
  2. 整体框架
  3. 查询模版 & Metric引擎
  4. SQL 缓存   
  5.  数据安全
  • 总结
  • Q&A

听众收益

  • 在中型之大型公司数据规范化的重要性以及如何做到。
  • 如何灵活并选择正确的技术解决相应的数据难题。
  • 如何用正确的架构把每一个解决方案模块整合起来。

by 牟宇航

百度
大数据部技术经理
百度MPP数据仓库Palo开源架构解读与应用

业务量增加,数据量翻番,需要面对百TB ~ PB级别的数据量,且是结构化数据,同时需要达到毫秒/秒级分析。在这种情况下寻求新的解决方案选型:mpp(Impala)+ mesa的工程实现。这种选型在技术特性上可以支持MySQL、高并发小查询、大查询高吞吐、高容错、列式存储、物化视图、在线表结构修改等特征需求。实施后效果很明显,在演讲中会介绍百度内部使用情况,目前开源的使用情况,并会和GP、Impala+kudu的性能做些对比。

演讲提纲:

  • Palo背景介绍
  • 适用场景&案例介绍
  • Palo整体架构
  • Palo关键技术
  • Palo对外开放

听众受益:搭建OLAP系统及数据仓库的利器;了解Palo设计原理及内部技术实现。

by 李国栋

腾讯
数据平台部高级工程师
海量数据分析平台技术解析

腾讯移动分析(MTA)是一个专业的第三方移动 App 大数据分析平台,日活跃 App 数上万款,日新增流水高达5000亿条。面对如此庞大数据,系统如何提供秒级实时、多维检索、稳定高效的数据服务,是一项极具挑战的工作。

本次演讲重点剖析 MTA 海量数据分析平台关键技术:海量数据分析平台构建的要点;终端日志上报到前台展示秒级刷新的实时计算技术建设;基于实时用户分群、实时多维分析等技术改善运营;

演讲提纲

  • 海量数据分析的挑战与发展;
  • 平台构建、优化及服务治理;
  1. 平台构建的要点
  2. 核心关键技术方案与优化经验
  • 平台未来发展。

听众受益

  • 了解海量数据分析平台整体构建过程,难点以及关键技术;
  • 了解如何使用大数据辅助商业思维落地。

by 赵宏伟

恒丰银行
科技开发部高级经理
恒丰银行基于大数据技术重塑数据仓库及应用的探索
  • 平台建设背景
  1. 传统数仓存在的问题:数仓与应用分离,应用野蛮生长,跨应用数据共享困难、存在大量冗余,数据治理、数据标准难以落地; 
  2. 恒丰银行依托大数据数仓的思路(与传统的差异):将数仓及分析应用构建在统一的大数据平台之上,通过权限控制实现数据复用; 
  3. 在传统之上的增强:非机构化处理、实时流处理; 
  4. 在大数据平台选型的考虑。
  • 数仓应用体系建设
  1. 恒丰银行将数仓和应用整合后的大数据平台整体架构 
  2. 基于大数据的数据模型设计思路、性能关键点 
  3. 实时流的架构 
  4. 恒丰银行在实施这套平台过程中遇到问题及对策 
  5. 平台附属设施,权限、数据质量、监控预警等 
  6. 实施中考虑到技术关键点
  • 创新应用开发与数据价值挖掘(仅着重体现下风控体系的建设)
  1. 风控管理应用的技术架构 
  2. 风控在银行应用的场景 
  3. 应用的人工智能模型的处理思路
  • 取得成果与未来展望(简略)

整体数据处理能力,部署集市、应用的数量,应用的效果,数字化展现平台的可行性。

听众受益

  • 了解通过大数据技术构建数据仓库的优势,实施中的难点和注意事项 
  • 了解大数据技术给商业银行数据仓库和分析型应用带来的技术变革,可以获得哪些新能力 
  • 基于大数据数仓模型的实践经验

极客邦控股(北京)有限公司

北京市朝阳区望京利泽中二路洛娃大厦C座6层1607