实时流系统Heron的异常检测和恢复

所属专题:大数据平台架构

嘉宾 : 吴惠君 | TwitterData Platform Engineer

会议室 : 第二会议厅B

讲师介绍

专题演讲嘉宾:吴惠君

Twitter Data Platform Engineer

吴惠君博士,现任Twitter工程师,致力于实时流处理引擎Heron的研究和开发,Apache Heron committer。毕业于Arizona State University,专攻大数据处理和移动云计算,曾在国际顶级期刊和会议发表多篇学术论文,著有《Mobile Cloud Computing: Foundations and Service Models》,并有多项专利。

议题介绍

地点:第二会议厅B
所属专题:大数据平台架构

演讲:实时流系统Heron的异常检测和恢复

应近年来大规模实时分析的需求,很多流处理系统被开发出来。Twitter Heron开源系统就是其中的代表项目之一。这类系统要求在软件或者硬件失败的极端情况下能有较好的服务水平。为了达到这种要求,Twitter Heron系统添加了Dhalion异常检测和恢复框架来保障Heron系统的服务水平。

Dhalion异常检测和恢复框架使用polocy(策略)来整合detector(检测器)和resolver(执行器)模块。整个系统非常灵活。通过替换policy或者detector或者resolver能进行各种检测和恢复任务,包括检测back pressure(反压)指标并进行扩容,和检测负载指标并重新调度容器等等。Dhalion框架的应用给Heron系统带来了初步的自行规范调整机制。

演讲提纲

1. Heron Overview

2. Recent Improvements (2016-2017)

  • Scheduler Framework
  • Stateful Processing
  • High Level DSL
  • Python Heron
  • Dhalion

3. Self Regulating Challenges

  • Self-Tuning
  • Self-Stabilizing
  • Self-Healing

4. Dhalion Framework

  • Health Manager
  • Action Log
  • Action Blacklist

5. Case Study

  • Dynamic Resource Provisinging
  • Satifying Throughput SLOs

听众收益

  • 流处理系统中的自行规范调整的挑战
  • Dhalion异常检测与恢复框架
  • Twitter Heron系统通过反压和负载指标进行扩容/减容的经验

极客邦控股(北京)有限公司

北京市朝阳区望京利泽中二路洛娃大厦C座6层1607