数据基础平台构建技术

会议室:一层 5号厅CD
出品人:薛君凯

这是一个需求驱动的过程,重点关注数据接入、数据处理、数据分析等技术方案,包括平台... 展开 >

专题出品人:薛君凯

LinkedIn Senior Software Engineer/ Apache Helix PMC& Commiter

毕业于美国杜克大学,获计算材料博士学位,毕业后一直从事于分布式系统,云计算平台的开发和应用。

曾加入天睿(Teradata Aster)的数据库组以及威睿 (VMware)的虚拟机云管理平台组,进行数据库底层核心开发以及云计算平台的开发研究。

现就职于美国领英 (LinkedIn),参与内部云计算平台的搭建,现任 Apache 顶级开源项目 Helix 的 PMC以及Commiter,核心开发成员之一,同时贡献核心代码。

地点:一层 5号厅CD

专题:数据基础平台构建技术

这是一个需求驱动的过程,重点关注数据接入、数据处理、数据分析等技术方案,包括平台实践、工具链,Hadoop,Spark,Kafka等开源工具的使用。

by 徐鹏

字节跳动
研发工程师

字节跳动拥有了2款DAU过亿(今日头条、抖音)、多款DAU过千万的产品。国内产品总DAU已超过4亿,MAU已超过8亿,同时在全球40多个国家和地区排在应用商店总榜前列,覆盖75个语种。极速增长的用户规模和推荐为核心技术的业务背景对底层大数据平台造成了巨大的压力,日新增 5PB 数据、日均25w+离线作业、日均2k+离线用户对存储和计算都提出了不同的挑战。

此演讲中,我分别从存储和计算两个维度介绍字节跳动离线基础设施的规模,业务场景,遇到的挑战和我们解决的方法。这其中对社区的 Hadoop 实现有很多更改,其中部分大部分是社区还未实现的功能。

演讲提纲:

  1. 字节跳动 Hadoop 集群规模、业务场景、架构挑战
  2. 离线存储 HDFS 的架构演进与实践
  • 万台节点的管理与接入架构实践
  • 基于 Namenode Proxy 的路由架构
  • Namenode 500GB+ JVM Heap 调优
  • EB 级数据 quota / qps 管理实践
  • 中央式 IO 控制,长尾节点自动发现剔除策略
  • ...

3. 任务调用与资源管理 Yarn 的架构演进与实践

  • 字节跳动 Yarn 全球运维管理平台架构
  • Yarn 调度优化实践,20w+ 作业调度调优
  • Yarn 稳定性架构实践,SafeMode、雪崩预防、动态心跳资源等优化
  • Yarn 资源利用率优化实践,真实资源利用率、调度资源利用率优化等
  • ...

4. 字节跳动 Hadoop 未来 Roadmap

听众受益点:

  1. 对于社区的 Hadoop 实现我们打到了极限,例如 HDFS 的 jvm 堆调优、Yarn 7k 集群的雪崩等情况,并给出了优化方案;
  2. 对于社区一些标准实现的改动,例如 HDFS viewfs 、Yarn federation 架构、Yarn 多集群、HDFS 集中式 io 控制、字节跳动定制版本 Namenode 架构;
  3. 对于多 region、多 idc 、多集群的管理方案。

by 徐宏亮

Uber
Senior Software Engineer

Uber 拥有20+ Kafka 集群来处理系统和 App 的数据,其中一些数据需要跨数据中心拷贝。拷贝每天需要处理 PB 级的数据量,并且要保证拷贝中不会丢失数据,这带来了性能和运维各方面的挑战。在实现跨数据中心拷贝的过程中,Uber 经历了从 MirrorMaker 到 uReplicator 再到 Federated uReplicator 的迁移。

在这个演讲中,我将分享 Uber 为什么要开发 uReplicator 和 Federated uReplicator,uReplicator/Federated uReplicator 的架构和技术细节,在开发过程中遇到的问题并且如何解决的。

演讲提纲:

  1. Uber 的跨数据中心 replication 用例
  2. 为什么 Uber 要开发 uReplicator
  3. uReplicator 架构
  4. Federated uReplicator架构

听众受益点:

  1. Uber 在用 MirrorMaker 时遇到的问题,并且如何用 uReplicator 解决;
  2. 了解 uReplicator 的架构及部署;
  3. 了解在开发 uReplicator 中遇到的跨数据中心 replication 的问题及解决方案。

by 任春德

阿里巴巴
高级技术专家

by 杨巍威

Hortonworks
YARN/Staff Engineer

Apache Hadoop YARN 作为Hadoop生态系统中的资源调度系统,承载着丰富的大数据应用和计算,正在逐步演变为服务于大数据的底层Operation System。为了应对大数据生态圈的多样性、异构性以及复杂性,通过对各类计算模型、新的资源类型的支持,YARN正向着一个通用、高效、可扩展、支持多租户的资源管理和调度平台蓬勃发展。

在这个演讲中,我们将分享YARN的最新特性,并延伸到如何使用YARN架构新一代计算平台。我们会介绍YARN如何无缝的支持各类机器学习和深度学习框架,怎样结合多租户、资源隔离以及资源共享的特性,安全而高效的在同一个平台上运行各类计算任务。我们也会分享YARN的容器化的最新进展,包括对服务类型任务更全面的支持,以及基于Docker conainer的网络和存储的优化。我们会结合行业的一些案例,介绍一些典型的应用场景以加深对这些技术的理解。

演讲提纲:

  1. Apache Hadoop YARN 最新进展
  2. 基于YARN的基础计算架构
  3. 行业实战分享
  4. 总结和展望

听众受益点:

  • Apache Hadoop YARN 社区的最新发展状态
  • YARN 原生对于Service、Machine Learning和Deep Learning的支持
  • YARN 新的调度特性

by 陶建辉

涛思数据
创始人

物联网、车联网的兴起,所采集的时序空间数据高速增长。一般的大数据解决方案都是Kafaka + Redis + No SQL + Hadoop/Spark,但这些套件都是用来处理通用的非结构化数据的,因此在处理结构化的时序空间数据时,运行效率就大打折扣,而且因为集成多个组件,开发效率低,运维成本也很高。

涛思数据充分挖掘时序数据特点,设计了独有的存储结构和时序数据处理模型,将大数据平台所需要的数据库、消息队列、缓存、数据订阅等功能全部融合一起,无论是数据插入、还是普通查询、流式计算,速度都比现有方案快十倍以上,而且大大降低了应用的开发难度和系统维护成本。开发者使用涛思数据的TDengine,可以快速搭建一个时序空间大数据处理平台。

演讲提纲:

1. 时序空间数据特点;
2. 现有方案的弊端;
3. TDengine基本介绍;
4. 如何应对每天都在变化的大数据分析需求;
5. 车联网大数据平台的最佳实践;
6. 智能电表大数据处理实例;
7. 机械设备监测数据的实时计算;

听众受益

  • 如何从业务场景和数据特点选择最佳方案;
  • 如何降低系统开发成本和运维成本