基于Kubernetes的开发和运维

会议室:周
出品人:张磊

据Gartner和麦肯锡前几年的调研数据,全球的服务器利用率只有6%到12%,这... 展开 >

专题出品人:张磊

阿里巴巴集团 高级技术专家 & 技术顾问,极客时间App专栏作者

阿里巴巴集团高级技术专家 & 技术顾问,极客时间App专栏作者。Kubernetes项目资深成员与社区维护者,多项核心特性的发起人之一。2015年主导编写了《Docker容器与容器云》技术书籍。曾先后任职于浙江大学计算机与软件研究所,Hyper/Kata虚拟化容器团队,微软研究院(Microsoft Research)美国总部。

地点:周

专题:基于Kubernetes的开发和运维

据Gartner和麦肯锡前几年的调研数据,全球的服务器利用率只有6%到12%,这一技术领域的价值还远远没有被释放,也说明最近几年Docker容器和编排调度Kubernetes的流行是行业发展的必然趋势,这些技术成为云原生时代的标配,引领了新一轮的技术浪潮。基于Kubernetes的运维、机器学习、平台构建运用广泛,本专题将深入探讨相关技术。

by 丁成银

谷歌云
工程师

随着越来越多的工作负载从本地迁往云端,逐渐出现了本地/云端混合架构以及多云架构。本次演讲基于 Netflix/Lyft/Waze 等企业在 Google Cloud Platform 上基于 Kubernetes 部署多云应用的实践,内容涵盖企业多云/混合云场景下面临的一些挑战,提出常见的设计模式,并重点讨论如何利用 Kubernetes,Spinnaker 和 Istio 来简化过渡过程和持续运维过程,有效管理应用生命周期,特别是如何使用 Spinnaker 在多云部署中如何支持 CI/CD 流水线种常用的 Blue/Green,Rolling Update 和 Canary 部署,以及比较有特色的自动化 Canary Analysis 等功能。

演讲提纲: 

  1. 为什么采用多云
  2. 开发和运维团队的期望体验
  3. 目标架构选择
  4. 应用生命周期的管理
  5. 网络互通与安全隔离等

听众收益点:

  1. 多云/混合环境下的应用管理的挑战
  2. Kubernetes/Istio/Envoy 如何打通多云环境
  3. 使用 Spinnaker 管理多云环境下应用的生命周期

by 江帆

字节跳动
头条研发/软件工程师

字节跳动资源调度团队负责私有云平台 TCE 的底层 Kubernetes 集群的开发和维护工作。TCE 托管了头条、抖音、字节国际化业务等内部上万个在线微服务。随着这些业务的快速发展,集群规模不断扩大,机器负载越来越高,运维难度和成本问题越发显著。原生 Kubernetes 作为控制面系统,并不能很好地解决这些问题。为了提升系统可见性,我们基于 eBPF 实现了系统监控,使内核能更好地理解微服务,极大地提升了问题诊断效率。为提升资源利用率,我们通过动态超售,实现了业务实例的高密度部署,并通过优化 Kubernetes 资源模型,有效保证了延时敏感服务的 QoS。

演讲提纲:

  1. 容器化场景下的一些运维痛点问题
  2. 基于 eBPF 的系统监控,提升系统可见性
  3. 如何合理提升资源利用率节省成本
  4. Kubernetes 资源模型深度解析和 CGroups 调优经验

听众受益点:

  1. 字节跳动大规模 Kubernetes 集群和微服务的一些运维痛点问题和解决方案
  2. eBPF 程序在大规模生产环境下的应用
  3. 如何合理提升资源利用率,同时保证延迟敏感服务的QoS

by 孙健波

阿里巴巴集团
技术专家

问题背景:阿里巴巴容器平台团队担负着阿里内部各种应用的云原生化工作,同时也需要解决一系列云上配置、部署、扩缩容、安全等复杂问题。在这个规模化的场景中,面对成千上万个散落在不同团队、不同开发机上的 YAML 文件,我们平常所熟知的 Kubernetes 声明式 API 和声明式应用管理机制是否依然适用?像 Helm 这样的项目是否能帮助我们解决大量应用的配置与管理问题?

解决方案:阿里巴巴为了能够解决规模化场景中 Kubernetes 应用管理与维护的复杂性问题,围绕着 Kubernetes API 构建了一套对应用进行标准化描述、定制、自动化管理的完整的云原生应用管理技术体系。这个方案的特点包括:

1. 原生围绕 Kubernetes 的声明式 API 构建,不做 PaaS,不封装 API;

2. 应用具备互联网场景下的、一定程度的自运维与自愈能力;

3. 方便用户进行 PATCH 化的应用定制;

4. 不同应用要有统一的、标准化的定义方式;

5. 整套流程能够无缝与周边生态能力,包括安全、监控、CI/CD、 GitOps等。

方案介绍:利用 Helm Charts 进行标准化的应用描述, 将海量 YAML 文件托管于云原生应用中心(App Hub);使用 Overlay 的方式进行 YAML 文件 PATCH 化定制,实现 YAML 文件复用、Rebase 与变更追踪;使用 Kubernetes 自动化工具 Kruise 代替社区 Deployment 进行阿里内部的应用管理,插件化的实现“原地升级”等互联网场景中的重要需求。

实施后效果说明:阿里规模化场景下的应用管理紧紧有条,大幅提高了开发效率和软件质量。

演讲提纲:

  1. Kubernetes 声明式 API 与声明式应用管理机制解读
  2. 为什么需要应用标准?如何在不做 PaaS、不封装 API 的前提下实现这个标准?
  3. 应用在互联网场景下的自运维与自愈能力如何实现?比如:原地升级?
  4. 什么是 Kubernetes 应用管理的参数化陷阱与 DSL 缺陷?为什么我们要让用户进行 PATCH 化应用定制?
  5. 与周边系统如 CI/CD、 GitOps等集成举例。

前沿亮点:

  1. 阿里巴巴在规模化场景下实践云原生应用的一些经验和教训;
  2. 如何避开常见 Kubernetes 应用管理方式带来的参数化陷阱与 DSL 缺陷;
  3. Kubernetes 声明式 API 与声明式应用管理的设计内涵。

by 薛磊

Momenta
基础架构技术负责人

问题背景:随着深度学习技术的蓬勃发展,在无人驾驶领域取得了举足轻重的进展,众多算法研发人员为深度学习的技术提供了最基础的保证,但是随着算力的不断进步与演进,亟需一套简单易用的线下算法训练实验平台供算法研发人员使用。

解决方案:为了能够解决线下训练中遇到的使用问题,我们基于 Kubernetes 研发了一套高度可扩展的跨云 AI 训练方案,使用户可以自由的在各个机房使用不同的硬件训练。由于 Kubernetes Federation 技术还没有特别成熟,以及我们的场景并不需要跨 region 的部署方式,因此简单化处理了。后面会关注 Federation V2 项目。

方案介绍:我们开发了caffe2-operator,批量调度算法,RDMA device plugin 以及 CSI 插件,为多个集群异构硬件提供统一的管控以及差异化使用。

实施后效果:减少了用户数据同步;大大提升了硬件利用率;监控管理以及自动化程度更加强大。

演讲提纲:

  1. 阐述 AI 算法研发的大致过程
  2. 在算法研发中训练的意义以及相关技术点
  3. 实际工作中现有训练使用的问题以及难点
  4. 基于 Kubernetes 的跨云 AI 训练平台的架构
  5. Caffe2-Operator
  6. 调度算法(批量调度、抢占、优先级)
  7. RDMA device plugin
  8. CSI 插件

听众受益点:

  1. 了解现有 AI 算法研发的完整路径
  2. 跨云Kubernetes的技术方案
  3. Kubernetes与AI场景结合需要的定制化经验
  4. 为了达到训练最高性能我们做的工作

交通指南

© 2020 Baidu - GS(2019)5218号 - 甲测资字1100930 - 京ICP证030173号 - Data © 长地万方
想要批量报名或更多优惠?
立即联系票务报名小助手豆包
或致电:010-84780850