大数据是人工智能应用的一大基础,如何建设好自己的大数据平台,提高数据处理的质量与... 展开 >
鞠大升,美团点评研究员,有接近10年网络爬虫、基础架构和大数据平台从业经验。2008年至2012年在百度任开发工程师,参与过网络爬虫和分布式储存系统的开发。2013年至今在美团点评基础数据部数据平台组,专注于构建大数据实时计算的数据传输通道、平台和实时应用。
鞠大升,美团点评研究员,有接近10年网络爬虫、基础架构和大数据平台从业经验。2008年至2012年在百度任开发工程师,参与过网络爬虫和分布式储存系统的开发。2013年至今在美团点评基础数据部数据平台组,专注于构建大数据实时计算的数据传输通道、平台和实时应用。
大数据是人工智能应用的一大基础,如何建设好自己的大数据平台,提高数据处理的质量与效率,自然是重中之重。一起看看各大互联网公司在建设大数据平台的过程中积累的一手经验。
应近年来大规模实时分析的需求,很多流处理系统被开发出来。Twitter Heron开源系统就是其中的代表项目之一。这类系统要求在软件或者硬件失败的极端情况下能有较好的服务水平。为了达到这种要求,Twitter Heron系统添加了Dhalion异常检测和恢复框架来保障Heron系统的服务水平。
Dhalion异常检测和恢复框架使用polocy(策略)来整合detector(检测器)和resolver(执行器)模块。整个系统非常灵活。通过替换policy或者detector或者resolver能进行各种检测和恢复任务,包括检测back pressure(反压)指标并进行扩容,和检测负载指标并重新调度容器等等。Dhalion框架的应用给Heron系统带来了初步的自行规范调整机制。
1. Heron Overview
2. Recent Improvements (2016-2017)
3. Self Regulating Challenges
4. Dhalion Framework
5. Case Study
用户行为分析是数据分析中非常重要的一项内容,在统计活跃用户,分析留存和转化率,改进产品体验,推动用户增长等领域有重要作用,常见的方法包括漏斗分析,路径分析,分群分析等。美团点评每天收集的用户行为日志达到数百亿条,如何在海量数据集上实现对用户行为的快速灵活分析,成为一个巨大的挑战。为此,我们提出并实现了一套面向海量数据的用户行为分析解决方案,将单次分析的耗时从小时级降低到秒级,极大的改善了分析体验,提升了分析人员的工作效率。
本次演讲以用户行为分析场景中最常见的“有序漏斗”需求为例,深入描述了解决方案的核心思路和工程架构,重点呈现构建分布式系统的选型权衡,以及分布式系统的优化方法。
演讲提纲:
FreeWheel是一家主要服务于北美和欧洲客户的视频广告技术公司,为大型电视媒体和优质内容供应商提供企业级的视频广告解决方案,每天完成近10亿次视频广告投放,积累了大量的视频观看和广告投放数据。
在公司的大数据平台之上,我们构建以Presto为核心的OLAP,满足实时查询的要求。随着业务对于Presto的增长,效率、延迟以及数据管理成为制约Presto OLAP应用的重要问题。
在实践中,我们需要解决下面几个问题:
基于此,我们实现了Metadata Service和CacheLayer Service,以及实现Presto为核心的OLAP服务在AWS上弹性部署:
通过这些工作,极大地提升了SQL执行效率,全面支撑数据产品服务。
Business intelligence & analytics play important roles in the tech industry, especially in data-driven companies like Facebook. As the company evolves, different business teams have their own ways of building their business reports. Because data demands also grow rapidly, teams face similar strategic and technical challenges in terms of data consistency, efficiency of data delivery and data security.
The data delivery platform is targeted to address these challenges. We use query templates and the definition of metrics to solve the data consistency problem, and the Spark SQL-based caching service to solve the data delivery efficiency problem, with security naturally integrated into the metric definition.
参考翻译:
商业智能和商业分析(Business Intelligence & Analytics)在技术领域扮演着重要的角色,尤其是在像Facebook这样的数据驱动型企业。随着公司不断的发展壮大,不同的商业团队根据自身需求和方式进行商业报告,因此,伴随着大家对数据的需求越来越大,在数据一致性、数据查询效率和数据安全层面上,团队们面临着相似的战略规划和技术挑战。
这个数据递送平台 (Data Delivery Platform) 就是为了对症下药解决这些挑战而建立的,我们团队使用查询模版和Metrics定义来解决数据一致性问题,利用Spark SQL 解决数据分发效率的问题,与此同时,安全性是自然而然贯穿到metric定义中的。
业务量增加,数据量翻番,需要面对百TB ~ PB级别的数据量,且是结构化数据,同时需要达到毫秒/秒级分析。在这种情况下寻求新的解决方案选型:mpp(Impala)+ mesa的工程实现。这种选型在技术特性上可以支持MySQL、高并发小查询、大查询高吞吐、高容错、列式存储、物化视图、在线表结构修改等特征需求。实施后效果很明显,在演讲中会介绍百度内部使用情况,目前开源的使用情况,并会和GP、Impala+kudu的性能做些对比。
演讲提纲:
听众受益:搭建OLAP系统及数据仓库的利器;了解Palo设计原理及内部技术实现。
腾讯移动分析(MTA)是一个专业的第三方移动 App 大数据分析平台,日活跃 App 数上万款,日新增流水高达5000亿条。面对如此庞大数据,系统如何提供秒级实时、多维检索、稳定高效的数据服务,是一项极具挑战的工作。
本次演讲重点剖析 MTA 海量数据分析平台关键技术:海量数据分析平台构建的要点;终端日志上报到前台展示秒级刷新的实时计算技术建设;基于实时用户分群、实时多维分析等技术改善运营;
整体数据处理能力,部署集市、应用的数量,应用的效果,数字化展现平台的可行性。
极客邦控股(北京)有限公司
北京市朝阳区望京利泽中二路洛娃大厦C座6层1607