据Gartner和麦肯锡前几年的调研数据,全球的服务器利用率只有6%到12%,这... 展开 >
阿里巴巴集团高级技术专家 & 技术顾问,极客时间App专栏作者。Kubernetes项目资深成员与社区维护者,多项核心特性的发起人之一。2015年主导编写了《Docker容器与容器云》技术书籍。曾先后任职于浙江大学计算机与软件研究所,Hyper/Kata虚拟化容器团队,微软研究院(Microsoft Research)美国总部。
据Gartner和麦肯锡前几年的调研数据,全球的服务器利用率只有6%到12%,这一技术领域的价值还远远没有被释放,也说明最近几年Docker容器和编排调度Kubernetes的流行是行业发展的必然趋势,这些技术成为云原生时代的标配,引领了新一轮的技术浪潮。基于Kubernetes的运维、机器学习、平台构建运用广泛,本专题将深入探讨相关技术。
随着越来越多的工作负载从本地迁往云端,逐渐出现了本地/云端混合架构以及多云架构。本次演讲基于 Netflix/Lyft/Waze 等企业在 Google Cloud Platform 上基于 Kubernetes 部署多云应用的实践,内容涵盖企业多云/混合云场景下面临的一些挑战,提出常见的设计模式,并重点讨论如何利用 Kubernetes,Spinnaker 和 Istio 来简化过渡过程和持续运维过程,有效管理应用生命周期,特别是如何使用 Spinnaker 在多云部署中如何支持 CI/CD 流水线种常用的 Blue/Green,Rolling Update 和 Canary 部署,以及比较有特色的自动化 Canary Analysis 等功能。
演讲提纲:
听众收益点:
字节跳动资源调度团队负责私有云平台 TCE 的底层 Kubernetes 集群的开发和维护工作。TCE 托管了头条、抖音、字节国际化业务等内部上万个在线微服务。随着这些业务的快速发展,集群规模不断扩大,机器负载越来越高,运维难度和成本问题越发显著。原生 Kubernetes 作为控制面系统,并不能很好地解决这些问题。为了提升系统可见性,我们基于 eBPF 实现了系统监控,使内核能更好地理解微服务,极大地提升了问题诊断效率。为提升资源利用率,我们通过动态超售,实现了业务实例的高密度部署,并通过优化 Kubernetes 资源模型,有效保证了延时敏感服务的 QoS。
演讲提纲:
听众受益点:
问题背景:阿里巴巴容器平台团队担负着阿里内部各种应用的云原生化工作,同时也需要解决一系列云上配置、部署、扩缩容、安全等复杂问题。在这个规模化的场景中,面对成千上万个散落在不同团队、不同开发机上的 YAML 文件,我们平常所熟知的 Kubernetes 声明式 API 和声明式应用管理机制是否依然适用?像 Helm 这样的项目是否能帮助我们解决大量应用的配置与管理问题?
解决方案:阿里巴巴为了能够解决规模化场景中 Kubernetes 应用管理与维护的复杂性问题,围绕着 Kubernetes API 构建了一套对应用进行标准化描述、定制、自动化管理的完整的云原生应用管理技术体系。这个方案的特点包括:
1. 原生围绕 Kubernetes 的声明式 API 构建,不做 PaaS,不封装 API;
2. 应用具备互联网场景下的、一定程度的自运维与自愈能力;
3. 方便用户进行 PATCH 化的应用定制;
4. 不同应用要有统一的、标准化的定义方式;
5. 整套流程能够无缝与周边生态能力,包括安全、监控、CI/CD、 GitOps等。
方案介绍:利用 Helm Charts 进行标准化的应用描述, 将海量 YAML 文件托管于云原生应用中心(App Hub);使用 Overlay 的方式进行 YAML 文件 PATCH 化定制,实现 YAML 文件复用、Rebase 与变更追踪;使用 Kubernetes 自动化工具 Kruise 代替社区 Deployment 进行阿里内部的应用管理,插件化的实现“原地升级”等互联网场景中的重要需求。
实施后效果说明:阿里规模化场景下的应用管理紧紧有条,大幅提高了开发效率和软件质量。
演讲提纲:
前沿亮点:
问题背景:随着深度学习技术的蓬勃发展,在无人驾驶领域取得了举足轻重的进展,众多算法研发人员为深度学习的技术提供了最基础的保证,但是随着算力的不断进步与演进,亟需一套简单易用的线下算法训练实验平台供算法研发人员使用。
解决方案:为了能够解决线下训练中遇到的使用问题,我们基于 Kubernetes 研发了一套高度可扩展的跨云 AI 训练方案,使用户可以自由的在各个机房使用不同的硬件训练。由于 Kubernetes Federation 技术还没有特别成熟,以及我们的场景并不需要跨 region 的部署方式,因此简单化处理了。后面会关注 Federation V2 项目。
方案介绍:我们开发了caffe2-operator,批量调度算法,RDMA device plugin 以及 CSI 插件,为多个集群异构硬件提供统一的管控以及差异化使用。
实施后效果:减少了用户数据同步;大大提升了硬件利用率;监控管理以及自动化程度更加强大。
演讲提纲:
听众受益点: