数据中台建设

会议室:大宴会厅1
出品人:王勇

这两年“中台战略”概念异军突起,企业为何要建中台?除了解... 展开 >

专题出品人:王勇

滴滴出行 首席工程师

2005年毕业于华中科技大学,09年加入阿里巴巴,参与阿里大数据体系建设,8年时间里依次负责过数据架构、数据平台、数据治理等方向。2017年加入滴滴出行,目前担任数据平台部和数据治理部负责人,也是滴滴新一代数据体系建设主要责任人。

超过10年的大数据领域建设经验,感受过传统行业的BI应用,也见证了大数据时代从兴起到成熟和落地的整个过程,从架构、平台到治理和对外业务,几乎走过了大数据的各个角落,希望能够有机会与大家坐而论道,共同探讨技术演变和行业发展。

曾经担任淘宝技术嘉年华、云栖大会大数据方向出品人。曾用花名 图海/陶笛。

地点:大宴会厅1

专题:数据中台建设

这两年“中台战略”概念异军突起,企业为何要建中台?除了解决企业响应⼒慢的困境,弥补创新不足的短板,快速响应变化的前台,解决相对较慢的后台之外,中台还有哪些作用?如何打造中台?

by 朱一飞

网易云音乐
数据智能部数据开发专家

云音乐作为一个快速发展创新导向的团队,数据驱动已经成为业务发展的共识。数据开发团队面临了相当大的挑战,一方面各个业务单元在8亿用户基数上积累海量的数据,另一方面业务部门基于发展需要提出了大量数据需求,并且在数据质量、数据共享、实时化方面的要求越来越高。

结合业界的实践,我们在原有平台建设基础上,通过对技术整合,团队组织架构调整搭建了云音乐的数据中台体系。中台架构中包含底层平台基建、标准化数仓体系以及数据应用服务矩阵,也包括我们适应中台体系的团队组织形式。目前我们的体系支撑千亿级数据处理、PB 级数仓、数万张业务数据报表、数十个团队协同共享数据。

演讲提纲:

  1. 核心观点:
    • 中台建设核心是数据共享&快速响应
    • 中台体系下基础设施要求更加强化,对“水电煤”、“高速路”要求更高
    • 数据产品直接服务一线
    • 组织架构与项目管理必须形成与中台目标匹配的方法论
  2. 云音乐业务场景
  3. 数据中台实践
  4. 经验总结,抛砖引玉

听众受益点:

  1. 关于数据中台的一线实践与思考
  2. 泛娱乐产品数据驱动业务的思路

by 谭安林

虎牙
数据技术部高级经理

虎牙作为直播行业领军的企业,业务线覆盖海内外,国内Huya直播、国外Yomi直播、Nimo直播如火如荼,品类繁多、用户端多样,数据类需求层出不穷,如分析类经营分析、竞品分析、转化分析,推荐类如主播推荐、广告推荐,美颜、滤镜等AI场景。面对这样纷杂的数据应用需求,只是提供基于Hadoop搭建的数据平台,提供存储、计算、调度的基础能力,且没有一套行之有效的数据治理手段,数据差、应用难、门槛高,大量数据需求涌向数据团队,导致支撑人员疲于奔命。

如果各个需求团队自己招人、烟囱式发展、势必导致数据割裂、口径不一、应用混乱、成本高昂,那么业界高频探讨的数据中台是一个可能的方向;我们如何结合虎牙现状,走出一条适合直播行业,能够利用大量的非结构化数据、保障数据质量、降低应用门槛,从而达到减少人力投入、响应需求更快的目的、推动数据决策赋能业务发展。

本演讲将介绍数据中台建设历程中所遇到的挑战,分享数据治理、数据融合、数据服务相关的设计思路和技术方案。

演讲提纲:

  1. 现状分析
    • 讲解问题现状,也覆盖业界普遍常态问题
    • 数据中台的建设思路
  2. 数据治理
    • 从接入源头开始的保障
    • 全链路的治理保障机制
    • 可视化可量化方向探索
  3. 数据融合:
    • 结构化数据建模体系
    • 非结构化的融合分析
    • 开放模式
  4. 开放体系:
    • 数据目录地图化
    • 协作式探索平台
    • 多样化中台服务
  5. 未来发展方向

听众受益点:

  1. 了解数据中台的实践路径、方法论体系
  2. 了解数据治理的难点问题以及解决方案
  3. 了解非结构化数据融合与应用链路

by 朱晓然

阿里巴巴
基础产品事业部/技术专家

在云上每天会产生海量的结构化数据,例如机器的监控指标,云服务的订单,这些结构化的数据每时每刻都在产出,峰值的读写压力可以达到数千万 TPS,如何高效低成本的存储这些数据呢?对于业务来说,满足数据基础的存储需求之外,如何提供实时的分析能力,基于分析结果发现潜在监控异常或者是订单增长趋势呢?这些读写、实时分析能力都是数据中台需要必备的能力。

对于阿里云来说,存储计算分离架构下的云原生结构化数据存储引擎满足这些多样化的存储和计算需求的方法是什么?在高吞吐写入存储这些数据的同时,实现数据的实时计算和交互分析查询又是如何完成的?随着数据的积累,如何进行存储分层?降低成本诉求的同时,如何满足历史数据离线分析?

本次演讲将介绍全新的云上 Lambda 架构,分享阿里云的结构化存储引擎解决这些问题的方法,并打造出具有独特优势的云上大数据存储分析架构。

演讲提纲:

  1. 业务发展对数据中台提出的新的需求和挑战,结合开源架构和业务场景分析结构化存储需要提供哪些能力:
    • 海量数据实时存储
    • 海量数据实时计算
    • 计算结果交互分析
    • 全量历史数据离线分析
  2. 阿里云自研结构化数据存储引擎在支撑数据中台需求的产品迭代思考:
    • 云上流批一体 Lambda 架构
    • Tablestore CDC 设计和思考
    • Tablestore CDC 对接流计算
    • MPP 引擎对接 Tablestore
    • 行列混合交互分析能力
    • 基于 Data Lake 数据分层架构
    • 云上结合 OSS 的数据分层方案
    • Delta Lake 演进
  3. 结构化存储数据中台在阿里的业务效果:
    • 业务数据下沉至数据中台,由中台提供统一的存储
    • 中台承载大流量复杂查询和分析,以及无限制的存储
    • 存储计算分离架构,流批一体存储,让计算的灵活度大大加强
    • 线上业务数据规模
  4. 未来的探索
    • 统一 SQL 查询
    • 结构化大数据架构的演进趋势看未来
    • 结合 Lambda、Kappa、Lambda plus 以及 Data Lake

听众受益点:

  1. 数据中台的云上架构和核心能力
  2. 云上大数据架构细节
  3. 存储引擎的设计思路
  4. 阿里内部数据中台的实践

by 张晨 博士后

浙江创邻科技有限公司
创始人,CEO

图数据库是一种新兴的底层数据库技术,可以支持海量数据的实时关联、查询和计算,是新一代人工智能、认知智能的核心底层支撑技术。中国信通院 2019 年发布了图数据库白皮书,基于知识图谱、复杂异构图的各种企业级应用在公安、金融、政府、互联网等多个领域蓬勃发展,对图数据库选型的指引有迫切的需求,尤其是在各种应用场景数据和查询需求迥异的情况下。

这次演讲将全面分享图数据库选型的标准、方法和结果,涵盖了主要的多款图数据库,并结合应用场景,举例说明选型的重要性和我建议的解决方案。

演讲提纲:

  1. 图数据库的概念
  2. 常见的图数据库
  3. 查询语言和客户端支持
  4. 存储与数据格式
  5. 功能与能力比较
  6. 选型性能比较
  • 环境需求
  • 数据导入
  • 简单遍历,复杂遍历
  • 主流图 benchmarks
  • 事务支持
  1. 算法能力
  2. API 性能
  3. 大数据平台融合
  4. 选型案例

听众受益点:

  1. 全面了解当前图数据库的各种选择,形成选型的方法和思维体系。
  2. 了解各图数据库的测试比较结果,量化指导本企业根据业务和场景需求进行技术选型。

by 邸帅

微众银行
基础科技产品部/大数据平台负责人

大数据平台技术快速迭代,大数据平台的架构环境变得日趋繁杂。不同组件间复杂的版本依赖和调用关系,上层工具应用和底层引擎间的 CS 紧耦合模式,组件间用户资源和上下文环境的彼此割裂,各种治理管控共性功能在不同组件中的重复开发等问题,给大数据平台的建设和运维带来了愈发严重的挑战,用户体验也受到影响。

在这种情况下,微众银行基于开源+自研,构建了 WeDataSphere 大数据平台套件,打造计算中间件层,让众多上层工具应用和底层引擎间的调用关系变得更加简化和解耦;提供治理管控共性功能的跨组件复用能力;打通不同数据应用组件间上下文环境,提供更连通融合易用易管的用户体验;让数据应用开发的规范、经验,更好的沉淀到应用开发工具中去。

实施效果:通过 WeDataSphere 大数据平台套件的构建和应用,在银行金融业务场景替代了 Oracle、SAS 等传统解决方案,在降低成本的同时提升了效率和自主可控性。其中部分关键组件如 Linkis、DataSphereStudio 等已经开源,受到开源社区用户的肯定和好评。

演讲提纲:

  1. 大数据平台的使用痛点:
    • 紧耦合问题,上层应用和底层计算存储引擎间的 CS连接模式;
    • 重复造轮子问题,每个上层应用工具系统都要重复解决计算治理问题;
    • 扩展难问题,上层应用新增对接底层计算引擎,维护成本高,改动大;
    • 应用孤岛问题,跨不同应用工具、不同计算任务间的互通问题;
    • 数据治理与应用开发规范化标准化问题。
  2. 新型大数据平台的设计理念及思路
    • 设计理念
      • 抽象作业提交执行流程解耦简化
      • AppJoint 设计灵活串联不同系统
      • 公共增强服务设计快速复用
      • 强大中间层治理管控能力设计灵活可控
    • 技术难点
      • 高并发高性能高可用
      • 低耦合高可扩展
      • 资源权限多级隔离管控
      • 前后端组件化复用
  3. 应用实施效果
    • 实践案例一:银行核心系统批处理替代 Oracle
    • 实践案例二:银行风控建模替代 SAS
  4. 开源社区合作伙伴的应用效果反馈
    • 开源不到1年已有200多家公司使用,19家主动反馈已上生产

听众受益点:

  1. 了解如何让众多上层工具应用和底层引擎间的调用关系变得更加简化和解耦;
  2. 了解如何复用引擎连接、多租户管控、等计算治理层能力,降低上层工具应用组件开发运维成本;
  3. 了解如何打通组件间的用户上下文环境,提供更连通融合易用的用户体验;

by 徐皓

奇虎360
大数据中心技术总监

随着360公司全新战略方向的确定,公司的业务市场从面向C端用户的产品开始扩展到B端客户,大数据中心也承载了B端应用场景中的数据处理需求,面对不同领域的客户、不同客户的需求、不同需求的应用场景,如何让大数据平台既保持平台的简单、纯粹,又能快速、灵活的响应客户需求。

本次演讲将通过介绍大数据中心的定制化能力构建,来阐述上述场景的解决方案。

演讲提纲:

  1. Why:为什么要定制化开发;
  2. What:什么是平台的定制化;
  3. How:如何构建定制化能力;
  4. 定制化能力的典型应用场景。

听众受益:

  1. 大数据平台定制化能力的设计思路;
  2. 了解360在面对B端大客户场景下如果通过定制化的能力去快速满足客户需求。
想要批量报名或更多优惠?
立即联系票务小姐姐 Ring
或致电:+86-15600537884