这是一个需求驱动的过程,重点关注数据接入、数据处理、数据分析等技术方案,包括平台... 展开 >
毕业于美国杜克大学,获计算材料博士学位,毕业后一直从事于分布式系统,云计算平台的开发和应用。
曾加入天睿(Teradata Aster)的数据库组以及威睿 (VMware)的虚拟机云管理平台组,进行数据库底层核心开发以及云计算平台的开发研究。
现就职于美国领英 (LinkedIn),参与内部云计算平台的搭建,现任 Apache 顶级开源项目 Helix 的 PMC以及Commiter,核心开发成员之一,同时贡献核心代码。
这是一个需求驱动的过程,重点关注数据接入、数据处理、数据分析等技术方案,包括平台实践、工具链,Hadoop,Spark,Kafka等开源工具的使用。
字节跳动拥有了2款DAU过亿(今日头条、抖音)、多款DAU过千万的产品。国内产品总DAU已超过4亿,MAU已超过8亿,同时在全球40多个国家和地区排在应用商店总榜前列,覆盖75个语种。极速增长的用户规模和推荐为核心技术的业务背景对底层大数据平台造成了巨大的压力,日新增 5PB 数据、日均25w+离线作业、日均2k+离线用户对存储和计算都提出了不同的挑战。
此演讲中,我分别从存储和计算两个维度介绍字节跳动离线基础设施的规模,业务场景,遇到的挑战和我们解决的方法。这其中对社区的 Hadoop 实现有很多更改,其中部分大部分是社区还未实现的功能。
演讲提纲:
3. 任务调用与资源管理 Yarn 的架构演进与实践
4. 字节跳动 Hadoop 未来 Roadmap
听众受益点:
Uber 拥有20+ Kafka 集群来处理系统和 App 的数据,其中一些数据需要跨数据中心拷贝。拷贝每天需要处理 PB 级的数据量,并且要保证拷贝中不会丢失数据,这带来了性能和运维各方面的挑战。在实现跨数据中心拷贝的过程中,Uber 经历了从 MirrorMaker 到 uReplicator 再到 Federated uReplicator 的迁移。
在这个演讲中,我将分享 Uber 为什么要开发 uReplicator 和 Federated uReplicator,uReplicator/Federated uReplicator 的架构和技术细节,在开发过程中遇到的问题并且如何解决的。
演讲提纲:
听众受益点:
Apache Hadoop YARN 作为Hadoop生态系统中的资源调度系统,承载着丰富的大数据应用和计算,正在逐步演变为服务于大数据的底层Operation System。为了应对大数据生态圈的多样性、异构性以及复杂性,通过对各类计算模型、新的资源类型的支持,YARN正向着一个通用、高效、可扩展、支持多租户的资源管理和调度平台蓬勃发展。
在这个演讲中,我们将分享YARN的最新特性,并延伸到如何使用YARN架构新一代计算平台。我们会介绍YARN如何无缝的支持各类机器学习和深度学习框架,怎样结合多租户、资源隔离以及资源共享的特性,安全而高效的在同一个平台上运行各类计算任务。我们也会分享YARN的容器化的最新进展,包括对服务类型任务更全面的支持,以及基于Docker conainer的网络和存储的优化。我们会结合行业的一些案例,介绍一些典型的应用场景以加深对这些技术的理解。
演讲提纲:
听众受益点:
物联网、车联网的兴起,所采集的时序空间数据高速增长。一般的大数据解决方案都是Kafaka + Redis + No SQL + Hadoop/Spark,但这些套件都是用来处理通用的非结构化数据的,因此在处理结构化的时序空间数据时,运行效率就大打折扣,而且因为集成多个组件,开发效率低,运维成本也很高。
涛思数据充分挖掘时序数据特点,设计了独有的存储结构和时序数据处理模型,将大数据平台所需要的数据库、消息队列、缓存、数据订阅等功能全部融合一起,无论是数据插入、还是普通查询、流式计算,速度都比现有方案快十倍以上,而且大大降低了应用的开发难度和系统维护成本。开发者使用涛思数据的TDengine,可以快速搭建一个时序空间大数据处理平台。
演讲提纲:
1. 时序空间数据特点;
2. 现有方案的弊端;
3. TDengine基本介绍;
4. 如何应对每天都在变化的大数据分析需求;
5. 车联网大数据平台的最佳实践;
6. 智能电表大数据处理实例;
7. 机械设备监测数据的实时计算;
听众受益: