会议：2019年07月12-13日

培训：2019年07月14-15日

地址：深圳·大中华喜来登酒店

热线：+86-17326843116

下一站ArchSummit北京

基于Kubernetes的开发和运维

会议室：周

出品人：张磊

据Gartner和麦肯锡前几年的调研数据，全球的服务器利用率只有6%到12%，这... 展开 >

旗下议题

出品人介绍

专题出品人：张磊

阿里巴巴集团高级技术专家 & 技术顾问，极客时间App专栏作者

阿里巴巴集团高级技术专家 & 技术顾问，极客时间App专栏作者。Kubernetes项目资深成员与社区维护者，多项核心特性的发起人之一。2015年主导编写了《Docker容器与容器云》技术书籍。曾先后任职于浙江大学计算机与软件研究所，Hyper/Kata虚拟化容器团队，微软研究院（Microsoft Research）美国总部。

地点：周

专题：基于Kubernetes的开发和运维

据Gartner和麦肯锡前几年的调研数据，全球的服务器利用率只有6%到12%，这一技术领域的价值还远远没有被释放，也说明最近几年Docker容器和编排调度Kubernetes的流行是行业发展的必然趋势，这些技术成为云原生时代的标配，引领了新一轮的技术浪潮。基于Kubernetes的运维、机器学习、平台构建运用广泛，本专题将深入探讨相关技术。

by 丁成银

谷歌云

工程师

多云环境使用K8s/Istio/Spinnaker管理应用的最佳实践

随着越来越多的工作负载从本地迁往云端，逐渐出现了本地/云端混合架构以及多云架构。本次演讲基于 Netflix/Lyft/Waze 等企业在 Google Cloud Platform 上基于 Kubernetes 部署多云应用的实践，内容涵盖企业多云/混合云场景下面临的一些挑战，提出常见的设计模式，并重点讨论如何利用 Kubernetes，Spinnaker 和 Istio 来简化过渡过程和持续运维过程，有效管理应用生命周期，特别是如何使用 Spinnaker 在多云部署中如何支持 CI/CD 流水线种常用的 Blue/Green，Rolling Update 和 Canary 部署，以及比较有特色的自动化 Canary Analysis 等功能。

演讲提纲：

为什么采用多云
开发和运维团队的期望体验
目标架构选择
应用生命周期的管理
网络互通与安全隔离等

听众收益点：

多云/混合环境下的应用管理的挑战
Kubernetes/Istio/Envoy 如何打通多云环境
使用 Spinnaker 管理多云环境下应用的生命周期

by 江帆

字节跳动

头条研发/软件工程师

字节跳动容器化场景下的性能优化实践

字节跳动资源调度团队负责私有云平台 TCE 的底层 Kubernetes 集群的开发和维护工作。TCE 托管了头条、抖音、字节国际化业务等内部上万个在线微服务。随着这些业务的快速发展，集群规模不断扩大，机器负载越来越高，运维难度和成本问题越发显著。原生 Kubernetes 作为控制面系统，并不能很好地解决这些问题。为了提升系统可见性，我们基于 eBPF 实现了系统监控，使内核能更好地理解微服务，极大地提升了问题诊断效率。为提升资源利用率，我们通过动态超售，实现了业务实例的高密度部署，并通过优化 Kubernetes 资源模型，有效保证了延时敏感服务的 QoS。

演讲提纲：

容器化场景下的一些运维痛点问题
基于 eBPF 的系统监控，提升系统可见性
如何合理提升资源利用率节省成本
Kubernetes 资源模型深度解析和 CGroups 调优经验

听众受益点：

字节跳动大规模 Kubernetes 集群和微服务的一些运维痛点问题和解决方案
eBPF 程序在大规模生产环境下的应用
如何合理提升资源利用率，同时保证延迟敏感服务的QoS

by 孙健波

阿里巴巴集团

技术专家

参数化陷阱与 DSL 缺陷：K8s 声明式应用管理的实践与教训

问题背景：阿里巴巴容器平台团队担负着阿里内部各种应用的云原生化工作，同时也需要解决一系列云上配置、部署、扩缩容、安全等复杂问题。在这个规模化的场景中，面对成千上万个散落在不同团队、不同开发机上的 YAML 文件，我们平常所熟知的 Kubernetes 声明式 API 和声明式应用管理机制是否依然适用？像 Helm 这样的项目是否能帮助我们解决大量应用的配置与管理问题？

解决方案：阿里巴巴为了能够解决规模化场景中 Kubernetes 应用管理与维护的复杂性问题，围绕着 Kubernetes API 构建了一套对应用进行标准化描述、定制、自动化管理的完整的云原生应用管理技术体系。这个方案的特点包括：

1. 原生围绕 Kubernetes 的声明式 API 构建，不做 PaaS，不封装 API；

2. 应用具备互联网场景下的、一定程度的自运维与自愈能力；

3. 方便用户进行 PATCH 化的应用定制；

4. 不同应用要有统一的、标准化的定义方式；

5. 整套流程能够无缝与周边生态能力，包括安全、监控、CI/CD、 GitOps等。

方案介绍：利用 Helm Charts 进行标准化的应用描述，将海量 YAML 文件托管于云原生应用中心（App Hub）；使用 Overlay 的方式进行 YAML 文件 PATCH 化定制，实现 YAML 文件复用、Rebase 与变更追踪；使用 Kubernetes 自动化工具 Kruise 代替社区 Deployment 进行阿里内部的应用管理，插件化的实现“原地升级”等互联网场景中的重要需求。

实施后效果说明：阿里规模化场景下的应用管理紧紧有条，大幅提高了开发效率和软件质量。

演讲提纲：

Kubernetes 声明式 API 与声明式应用管理机制解读
为什么需要应用标准？如何在不做 PaaS、不封装 API 的前提下实现这个标准？
应用在互联网场景下的自运维与自愈能力如何实现？比如：原地升级？
什么是 Kubernetes 应用管理的参数化陷阱与 DSL 缺陷？为什么我们要让用户进行 PATCH 化应用定制？
与周边系统如 CI/CD、 GitOps等集成举例。

前沿亮点：

阿里巴巴在规模化场景下实践云原生应用的一些经验和教训；
如何避开常见 Kubernetes 应用管理方式带来的参数化陷阱与 DSL 缺陷；
Kubernetes 声明式 API 与声明式应用管理的设计内涵。

by 薛磊

Momenta

基础架构技术负责人

基于 Kubernetes 的跨云 AI 训练平台构建与展望

问题背景：随着深度学习技术的蓬勃发展，在无人驾驶领域取得了举足轻重的进展，众多算法研发人员为深度学习的技术提供了最基础的保证，但是随着算力的不断进步与演进，亟需一套简单易用的线下算法训练实验平台供算法研发人员使用。

解决方案：为了能够解决线下训练中遇到的使用问题，我们基于 Kubernetes 研发了一套高度可扩展的跨云 AI 训练方案，使用户可以自由的在各个机房使用不同的硬件训练。由于 Kubernetes Federation 技术还没有特别成熟，以及我们的场景并不需要跨 region 的部署方式，因此简单化处理了。后面会关注 Federation V2 项目。

方案介绍：我们开发了caffe2-operator，批量调度算法，RDMA device plugin 以及 CSI 插件，为多个集群异构硬件提供统一的管控以及差异化使用。

实施后效果：减少了用户数据同步；大大提升了硬件利用率；监控管理以及自动化程度更加强大。

演讲提纲：