2015年硕士毕业后进入奇虎360,主要负责维护推广 Spark,经历了 Spark 在公司内部从0到1的发展,实现了 Hive 向 Spark SQL 的迁移;2018年加入快手数据平台部数据架构组,目前主要负责 Clickhouse 在公司内部的推广与应用。有丰富的分布式计算系统在海量数据场景下的优化经验。
2015年硕士毕业后进入奇虎360,主要负责维护推广 Spark,经历了 Spark 在公司内部从0到1的发展,实现了 Hive 向 Spark SQL 的迁移;2018年加入快手数据平台部数据架构组,目前主要负责 Clickhouse 在公司内部的推广与应用。有丰富的分布式计算系统在海量数据场景下的优化经验。
Clickhouse 作为一款高性能 OLAP 引擎,在快手内部有大量的应用,但是随着 Clickhouse 集群的规模越来越大,原生 Clickhouse 扩展遇到了瓶颈,并且运维压力也很大。因此实现了Clickhouse on HDFS 的架构,实现计算和存储分离,海量数据的管理依靠成熟的 HDFS 系统,同时保留 Clickhouse 优异的查询计算性能。Clickhouse on HDFS 上线之后,可以轻松扩展 Clickhouse 的集群规模,实现在海量数据下大规模推广应用。
演讲提纲:
听众受益点: