深度学习程序性能优化技术

所属专题:深度培训

嘉宾 : 袁进辉(老师木) | 一流科技创始人

会议室 : 二层201AB

讲师介绍

培训讲师:袁进辉(老师木)

一流科技 创始人

袁进辉(老师木),2008年7月自清华大学计算机系获得工学博士学位,获得清华大学优秀博士学位论文奖,在计算机视觉及多媒体领域顶级会议上发表多篇论文,连续多年获得美国国家技术标准局组织的视频检索评测比赛的第一名。

2010年负责研发斯诺克比赛“鹰眼”系统,该产品打败来自英国的竞品开始服务于各项国际大赛,并被中国国家队作为日常训练辅助系统。

2012年作为早期成员加入360搜索创业团队,一年后产品上线成为国内市场份额第二的搜索引擎。

2013年加入微软亚洲研究院从事大规模机器学习平台的研发工作。

2014年,发明了当时世界上最快的主题模型训练算法和系统LightLDA,只用数十台服务器即可完成以前数千台服务器才能实现的大规模主题模型,该技术成功应用于微软在线广告系统,被当时主管研究的全球副总裁周以真称为“年度最好成果”。

2015年至2016年底,专注于搭建基于异构集群的深度学习平台,项目荣获微软亚洲研究院院长特别奖 (top 1%)。

2017年创立北京一流科技有限公司,致力于打造分布式深度学习平台的事实工业标准。

培训介绍

地点:二层201AB
所属专题:深度培训

深度学习程序性能优化技术

随着深度学习的发展,用户越来越依赖 GPU 或者其他加速器进行大规模运算。人工智能(Artificial Intelligence)需要更优秀的软件来释放硬件的能量已成业界共识。一方面,各种框架需要进一步降低编写深度学习分布式训练程序的门槛;另一方面,用户期待系统可以支持不同的深度学习网络模型,并实现线性加速。各知名深度学习框架正在朝这方面努力,但用户在使用这些框架时仍会遇到横向扩展性的难题,或者是投入很多计算资源但没有看到效率收益,或者是问题规模超过 GPU 显存限制而无法求解。我们团队历时两年研发了一套全新的深度学习引擎 OneFlow,在大数据和大模型场景都展现了相对于已有引擎的显著优势。业界关于这方面的技术教程还不够系统,我们希望通过这个课程能把我们研发 OneFlow 过程中的经验教训及关键技术分享给更多人,这些关键技术并不仅限于 OneFlow,也同样适用于其它深度学习框架的性能优化。

课程收益:使用多机多卡训练深度学习模型的最优实践,使用已有框架遇到性能问题时知道如何去调优,重新写一个深度学习系统需要哪些关键技术。

课程大纲:

  1. 微观层面,CUDA 编程精要,GPU 硬件架构,如何写一个高效的 cuda kernel
  2. 如何高效的利用 GPU? 如何用好 CUDA,Stream,Event重叠计算和传输
  3. 如何使用 CUBLAS,Cudnn,NCCL 编程
  4. RDMA 原理和实践
  5. 如何优化数据流水线?
  6. 异构计算的内存管理技术
  7. 数据并行,模型并行和流水并行的原理
  8. 如何优化多机多卡代码?
  9. 我眼里深度学习引擎的最优架构