会议：2019年07月12-13日

培训：2019年07月14-15日

地址：深圳·大中华喜来登酒店

热线：+86-17326843116

下一站ArchSummit北京

基于 Kubernetes 的跨云 AI 训练平台构建与展望

所属专题：基于Kubernetes的开发和运维

所属领域：

嘉宾 : 薛磊 | Momenta基础架构技术负责人

会议室 : 周

讲师介绍

专题演讲嘉宾：薛磊

Momenta 基础架构技术负责人

目前在 Momenta 从事AI基础架构研发的工作，带领团队开发了跨云多区域异构计算 GPU 平台，该平台基于 Kubernetes 框架，结合 AI 训练的特别场景设计开发出了一套针对算法研发人员方便易用的训练平台。与此同时也是 KubeFlow 的贡献者，其中 caffe2-operator 的作者。

在此之前，作为 Hypercontainer 的早期员工，参与了大多数项目，是容器技术早期践行者。

议题介绍

地点：周

所属专题：基于Kubernetes的开发和运维

所属领域：

演讲：基于 Kubernetes 的跨云 AI 训练平台构建与展望

问题背景：随着深度学习技术的蓬勃发展，在无人驾驶领域取得了举足轻重的进展，众多算法研发人员为深度学习的技术提供了最基础的保证，但是随着算力的不断进步与演进，亟需一套简单易用的线下算法训练实验平台供算法研发人员使用。

解决方案：为了能够解决线下训练中遇到的使用问题，我们基于 Kubernetes 研发了一套高度可扩展的跨云 AI 训练方案，使用户可以自由的在各个机房使用不同的硬件训练。由于 Kubernetes Federation 技术还没有特别成熟，以及我们的场景并不需要跨 region 的部署方式，因此简单化处理了。后面会关注 Federation V2 项目。

方案介绍：我们开发了caffe2-operator，批量调度算法，RDMA device plugin 以及 CSI 插件，为多个集群异构硬件提供统一的管控以及差异化使用。

实施后效果：减少了用户数据同步；大大提升了硬件利用率；监控管理以及自动化程度更加强大。

演讲提纲：