ArchSummit2018北京站|全球架构师峰会

by 薛君凯

Senior Software Engineer/ Apache Helix PMC& Commiter

如今各种应用的层出不穷使得网络内容以及作用更为丰富。但应对海量的数据流量以及访问，如果能保持系统的高可用性以及高性能是现在的系统第一需要面对的问题。本次内容将包括分布式系统的架构，实现已经现如今知名公司的业界应用来展开。在此基础上，更延伸出的分布式任务管理系统。最后将带领大家在短时间内迅速构建一个基本的分布式系统。

培训提纲：

什么是分布式系统
分布式系统组件的核心部件解析
分布式任务管理系统的架构
业界现有分布式系统以及分布式任务管理系统的应用场景
现场手把手教学如何快速构建一个简易分布式任务管理执行系统。

目标听众：

希望深入学习分布式系统，任务管理系统以及对其优化的高级工程师；
想了解顶尖科技公司实际案例的架构师。

听课收益：深入了解分布式系统的架构，以及如何应用场景，以及业界优秀案例。

随着深度学习的发展，用户越来越依赖 GPU 或者其他加速器进行大规模运算。人工智能（Artificial Intelligence）需要更优秀的软件来释放硬件的能量已成业界共识。一方面，各种框架需要进一步降低编写深度学习分布式训练程序的门槛；另一方面，用户期待系统可以支持不同的深度学习网络模型，并实现线性加速。各知名深度学习框架正在朝这方面努力，但用户在使用这些框架时仍会遇到横向扩展性的难题，或者是投入很多计算资源但没有看到效率收益，或者是问题规模超过 GPU 显存限制而无法求解。我们团队历时两年研发了一套全新的深度学习引擎 OneFlow，在大数据和大模型场景都展现了相对于已有引擎的显著优势。业界关于这方面的技术教程还不够系统，我们希望通过这个课程能把我们研发 OneFlow 过程中的经验教训及关键技术分享给更多人，这些关键技术并不仅限于 OneFlow，也同样适用于其它深度学习框架的性能优化。

课程收益：使用多机多卡训练深度学习模型的最优实践，使用已有框架遇到性能问题时知道如何去调优，重新写一个深度学习系统需要哪些关键技术。

课程大纲：

微观层面，CUDA 编程精要，GPU 硬件架构，如何写一个高效的 cuda kernel
如何高效的利用 GPU? 如何用好 CUDA，Stream，Event重叠计算和传输
如何使用 CUBLAS，Cudnn，NCCL 编程
RDMA 原理和实践
如何优化数据流水线？
异构计算的内存管理技术
数据并行，模型并行和流水并行的原理
如何优化多机多卡代码？
我眼里深度学习引擎的最优架构

by 王宝令

京东

物流部资深架构师

基于 OpenResty 的高性能网关核心设计

目前越来越多的企业为了整合产业的上下游资源，构建企业生态圈开始构建开放平台，开放平台的一个核心组件就是 API 网关。目前实现 API 网关的技术路线主要分为三种，一种由 Java 语言实现，目前主要采用 Netty 实现；一种是由 Go 语言实现，主要利于了 Go 语言提供的协程；还有一种就是基于 OpenResty 实现。OpenResty 是一个基于 Nginx 与 Lua 的高性能 Web 平台，其内部集成了大量精良的 Lua 库、第三方模块以及大多数的依赖项。京东物流的开发平台网关就是基于 Openresty 实现的。本课程主要介绍如何基于 Openresty 实现高性能 API 网关。

课程大纲：