2005年入职腾讯,曾参与主导搜索引擎,分布式存储,分布式计算等多个项目的整体架构;2013年加入微信,现任技术架构部下大数据平台团队负责人,主导微信两项基础平台:微信资源调度Yard平台和微信流量实验X平台的研发;在分布式设计,高可用架构,任务调度,搜索引擎,高性能服务,大数据计算等领域有浓厚兴趣和实践经验。
2005年入职腾讯,曾参与主导搜索引擎,分布式存储,分布式计算等多个项目的整体架构;2013年加入微信,现任技术架构部下大数据平台团队负责人,主导微信两项基础平台:微信资源调度Yard平台和微信流量实验X平台的研发;在分布式设计,高可用架构,任务调度,搜索引擎,高性能服务,大数据计算等领域有浓厚兴趣和实践经验。
微信作为一款国民App,每天承载着数百亿条的消息收发,而支撑着微信功能的后台服务也多达数万个,如何确保这些在线服务的稳定可用和可控,是资源管理系统面临的一大挑战。
与此同时,随着AI技术的方兴未艾,围绕着微信所开展的机器学习与数据挖掘的离线作业也日渐增多,对内部计算、存储、网络等资源提出了大量的需求,如何充分利用好服务器资源,高效调度各类计算作业,合理编排不同维度的资源组合也是资源调度系统的一个重要目标。
本主题阐述了微信的资源调度系统Yard如何利用容器技术解决在线服务与离线作业混合运行的各种问题挑战,分享微信后台在资源隔离、作业调度、容灾设计等方面的成功实践和思考。