经过几年的发展,大数据领域涌现出了大量的新技术,成为大数据获取、存储、处理分析的... 展开 >
大数据领域从业7年,曾担任阿里云数据平台架构师,从无到有设计并研发Aliyun StreamCompute V1.0。
后担任网易数据科学中心大数据平台负责人,负责网易大数据平台建设、团队建设、人才培养,负责整体架构设计、自研系统研发与开源组件功能扩展与集成、大数据产品化输出。
现就职于阿里巴巴计算平台事业部,从事数据平台相关的设计与研发工作。
经过几年的发展,大数据领域涌现出了大量的新技术,成为大数据获取、存储、处理分析的有效手段。当然,业务的多样性也推动了大数据技术的更新迭代。本专题围绕大数据实时处理、数据采集、分析等技术方向,结合一线大企业在不同类型实战场景和解决方案案例,全面而有深度的介绍大数据技术实践内容。
Big Data Platform at Pinterest - Now and in the Future
Big data platform at Pinterest is a public cloud based platform at massive scale (100+PB data, hundreds of billions of new events per day, ~PB new data ingested per day) focusing on empowering all engineers.
In this talk, Yongsheng will deep dive into the current technology landscape of big data platform at Pinterest across data ingestion (real-time events, logging, database snapshots, database incremental dump), batch/streaming data processing platforms (Hadoop, Spark, Flink, Kafka Streams), query platforms (Hive, Presto, Spark SQL), and their homegrown workflow engine at Pinterest; he will also offer insights into how these technologies will evolve in their ecosystem in the future. Besides key technologies powering big data platform at Pinterest, Yongsheng will also cover what enables Pinterest engineering to encourage ownership and accountability, improve platform efficiency, and elevate platform team from being overwhelmed by operation and support to focus on platform advancement.
You will leave this talk with great insights into how big data ecosystem works at Pinterest and being inspired to re-envision your own big data platform.
参考译文:
Pinterest 的大数据平台是一个大规模的公共云平台(100+PB数据,每天数千亿新事件,每天接收约PB级新数据),它的重点在于赋予所有工程师工作处理能力。
在这次演讲中,永胜将深入探讨Pinterest数据平台技术栈,围绕数据摄入(实时事件,日志记录,数据库快照,数据库增量转储),批量/流式数据处理平台(Hadoop, Spark, Flink, Kafka Streams),查询平台(Hive,Presto,Spark SQL)以及 Pinterest 本土工作流引擎;他还将提供有关未来这些技术如何在其生态系统中演变的个人见解。除了在 Pinterest 支持大数据平台的关键技术之外,永胜还将分享涵盖 Pinterest 工程鼓励所有权和问责制,提高平台效率,避免平台团队受到运营压力,并致力于平台进步。
参会者会从永胜的演讲中获益,深入了解大数据生态系统在 Pinterest 的工作原理,并启发参会者如何重新审视目前自己大数据平台。
Big Spatial Data @ Facebook
Big Geospatial Data at scale has all the challenges of data at scale along with some quirks very specific to spatio-temporal data. However, these very quirks (like the bounds of latitude/longitude, Euclidean vs. great circle distances, the "true" shape of the earth and the extremely skewed distribution of geospatial features) can be leveraged into interesting and productive trade-offs to offset and address these challenges. With more and more mobile devices thrown into the mix (both as producers and consumers of spatio-temporal data), realtime and accurate lookup of points and polygons based on GPS locations and queries about k-nearest and Top-K based on geospatial contexts are a very common and relevant problem. At the same time, providing scalable offline aggregation and query capabilities of spatio-temporal data for analytics use cases becomes vital to making sense of it.
The Facebook Location Infrastructure team handles spatio-temporal data at Facebook scale (using a mix of in-house and open source technologies and pragmatic trade-offs/decisions). This presentation will cover various design decisions and architectural choices taken to ramp up Trillions of operations per day on a heterogeneous mix of spatio-temporal data (for both online and analytics oriented use cases).
大规模空间数据除了在规模上的挑战以外,还有一些独特的问题需要解决:例如经纬度,直线距离和弧面距离的区别,以及同样的经纬度差在两极和赤道的面积差等。这些特性既是挑战也是性能优化上的机遇。随着越来越多的移动设备,物联网设备产生海量的时空数据,如何有效存储,检索,实时的k-nearest查询,关联性排序,如何高效的解决在离线大规模空间数据分析中常用到的Spatial Join都是我们要解决的问题。
Facebook Location Infrastructure团队处理大规模时空数据过程中,在内部技术和开源技术之间采取折中而务实的办法。本次演讲将会涵盖经过验证的,在处理每天万亿级混合复杂操作的时空数据背后的多个设计决策,和架构选型内容(包括在线和面向分析的用户案例)。
译版:
Apache Spark作为最火的大规模数据处理引擎之一,进步神速,它不仅在互联网公司,在传统行业(如银行)的使用都非常广泛。随着云时代的到来,把Spark搬到云上这件事,主要的云服务提供商都在做,比如AWS/Aliyun的EMR、华为云的MRS,但这种模式有几个缺点:
Serverless化的Spark服务是解决问题的王道,但是开源版本的Spark在企业级功能、规模、安全性、成本等方面颇有差距,这次分享主要站在云计算实践者的角度来分析这些差距都是什么和解决办法。
近些年随着大数据技术的不断发展和成熟,无论是传统企业还是互联网公司都已经不再仅仅满足于批处理,对流处理的场景和需求也越来越强烈。SQL是大数据处理中使用最广泛的语言。它允许用户简明扼要地声明他们的业务逻辑。数据分析师通常没有复杂的软件编程背景,但他们可以使用SQL来分析数据并为业务决策提供支持。
在流计算领域,除了Flink之外,其他一些流处理框架(如Kafka和Spark Structure Streaming)也具有类似于SQL的DSL,但它们与Flink的语义不同。Flink的SQL完全遵循ANSI SQL标准,而Spark和Kafka提供的DSL都是非ANSI SQL标准的。本次分享将介绍遵循ANSI SQL标准的好处,以及Flink SQL是如何实现这一目标。阿里巴巴的核心业务现在完全由数据处理引擎Blink驱动,它是一款阿里巴巴实时计算部基于Apache Flink改进的项目。阿里内部几乎所有的Blink作业都是由Flink SQL编写的。本次分享也将介绍Flink SQL在阿里内部的大规模应用的场景和经验。