大数据和 AI 结合应用,需要新的技术架构能力,从边缘和核心云计算节点的同步上,... 展开 >
花名一浪,从事5年搜索和广告引擎的设计与开发,负责过阿里巴巴淘宝,天猫,1688,Sourcing 和 AliExpress 的搜索与广告在线引擎系统,主导过阿里巴巴国际搜索和广告引擎在离线的一体化升级改造。近3年来,主要从事存储与计算引擎的设计与研发工作。现就职于阿里巴巴计算平台事业部,发起和参与了阿里巴巴新一代交互式分析引擎 Hologres 的研发。
大数据和 AI 结合应用,需要新的技术架构能力,从边缘和核心云计算节点的同步上,需要叠加升级从而更多地做数据协同运算,支撑未来各种各样的智慧城市、车联网、物联网等技术发展。
随着大数据时代的到来和人工智能的崛起,机器学习所能处理的场景更加广泛和多样。构建的模型需要对批量数据进行处理,为了达到实时性的要求还需要直接对流式数据进行实时预测,还要具备将模型应用在企业应用和微服务上能力。为了取得更好的业务效果,算法工程师们需要尝试更多更复杂的模型,需要处理更大的数据集,使用分布式集群已经成为常态;为了及时对市场的变化进行反应,越来越多的业务选用在线学习方式直接处理流式数据、实时更新模型。
演讲提纲:
听众受益点:
Elasticsearch(ES)作为首选的开源分布式搜索分析引擎,通过一套系统轻松满足用户的日志实时分析、全文检索、时序数据分析等多种需求,大幅降低大数据时代发掘数据价值的成本。腾讯在公司内部丰富的场景中大规模使用 ES,同时联合 Elastic 公司在腾讯云上提供内核增强版的 ES 云服务。大规模、丰富的实践场景,反推着腾讯在 ES 内核的稳定性、成本、性能等方面不断的进行演进。
腾讯通过执行引擎优化、存储重构、线性扩展等一系列技术方案,对原生 ES 内核在高性能、低成本、可扩展性等方面进行了深入优化,目前单集群规模达到千级节点、万亿级吞吐。
演讲提纲:
听众受益点:
Spark 3.0 将在 2020 年发布,其中包含了 Adaptive execution、Dynamic Partition Pruning、更好的深度学习支持等新功能。
Delta Lake 在过去的一年里在性能、易用性和计算引擎支持等方面有了很多提升。这个演讲会介绍主要的新功能和应用场景。
演讲提纲:
听众受益点:
相对于自建集群进行 AI 训练和推理,公有云 AI 服务门槛低、更易用、成本更低,但是要求将用户数据上传到公有云,这带来了数据隐私、传输带宽和响应时延等方面的担心。因此,边缘 AI 越来越被业界重视。当前边缘AI的主流模式是“云上训练,端边侧推理”,但是边侧模型性能受限于资源,训练数据仍需上云,另外边侧模型同质,效果不能达到最佳。面对边缘资源受限、地理分布、数据有偏、场景化等特点。
本议题将介绍一个基于开源 KubeEdge 平台的边云协同 AI 框架 SolarCorona,提供边云协同推理和边云协同训练能力,能快速开发具备边云系统 AI 能力的边缘应用,在边侧资源受限、小样本冷启动、数据隐私保护条件下,显著提升模型推理准确度10~20%。SolarCorona 框架包括多目标模型组的生成、边侧模型增量学习和边侧数据不满足 IID 条件时的联邦迁移学习等特性。
演讲提纲:
听众受益点: