大数据高压下Hadoop在字节跳动的应用演化

所属专题:数据基础平台构建技术

所属领域:

嘉宾 : 徐鹏 | 字节跳动研发工程师

会议室 : 一层 5号厅CD

讲师介绍

专题演讲嘉宾:徐鹏

字节跳动 研发工程师

字节跳动(今日头条、抖音母公司)基础设施研发工程师,曾负责 HDFS / Yarn 的研发工作,目前负责头条研发效率基础设施的建设工作。HDFS Contributor,Yarn Contributor,《HDFS 2.X 源码剖析》作者。

议题介绍

地点:一层 5号厅CD
所属专题:数据基础平台构建技术
所属领域:

演讲:大数据高压下Hadoop在字节跳动的应用演化

字节跳动拥有了2款DAU过亿(今日头条、抖音)、多款DAU过千万的产品。国内产品总DAU已超过4亿,MAU已超过8亿,同时在全球40多个国家和地区排在应用商店总榜前列,覆盖75个语种。极速增长的用户规模和推荐为核心技术的业务背景对底层大数据平台造成了巨大的压力,日新增 5PB 数据、日均25w+离线作业、日均2k+离线用户对存储和计算都提出了不同的挑战。

此演讲中,我分别从存储和计算两个维度介绍字节跳动离线基础设施的规模,业务场景,遇到的挑战和我们解决的方法。这其中对社区的 Hadoop 实现有很多更改,其中部分大部分是社区还未实现的功能。

演讲提纲:

  1. 字节跳动 Hadoop 集群规模、业务场景、架构挑战
  2. 离线存储 HDFS 的架构演进与实践
  • 万台节点的管理与接入架构实践
  • 基于 Namenode Proxy 的路由架构
  • Namenode 500GB+ JVM Heap 调优
  • EB 级数据 quota / qps 管理实践
  • 中央式 IO 控制,长尾节点自动发现剔除策略
  • ...

3. 任务调用与资源管理 Yarn 的架构演进与实践

  • 字节跳动 Yarn 全球运维管理平台架构
  • Yarn 调度优化实践,20w+ 作业调度调优
  • Yarn 稳定性架构实践,SafeMode、雪崩预防、动态心跳资源等优化
  • Yarn 资源利用率优化实践,真实资源利用率、调度资源利用率优化等
  • ...

4. 字节跳动 Hadoop 未来 Roadmap

听众受益点:

  1. 对于社区的 Hadoop 实现我们打到了极限,例如 HDFS 的 jvm 堆调优、Yarn 7k 集群的雪崩等情况,并给出了优化方案;
  2. 对于社区一些标准实现的改动,例如 HDFS viewfs 、Yarn federation 架构、Yarn 多集群、HDFS 集中式 io 控制、字节跳动定制版本 Namenode 架构;
  3. 对于多 region、多 idc 、多集群的管理方案。