什么是数据云 数据云是企业自有的、无孤岛、无绑定、安全可控的数据基础设施,帮助企业在其内部统一连接、共享数据资产,构建企业内、外数据生态,助力企业管理与应用全域数据。 统一性开放性 就像一家公司只能有一个ERP,一家公司最终也只能有一个数据云。统一的数据平台是未来企业建设数据云所必备,也是消灭孤岛所必需。 强调对数据云要满足开源标准,提供对API的集成能力,确保数据可以被简单地广泛使用。不管何种需求,都可以使用数据云来应对。 中立性安全性 云原生架构要求平台使用开放式计算和开放式存储,同时确保可移植性和可扩展性,支持多云跨云,避免受制于特定供应商。 在所有环境中均保证数据的安全性、高治理和高可控,确保数据的共享和使用得到安全保障,确保企业对数据的充分可控。 如果你面临以下挑战,应该关注数据云 1 多主体 2 多场景 3 多应用 数据的使用主体从最早的单一主体公司,到集团下的多家主体公司;从最早的营销及销售领域,拓展到财务、供应链、人力资源等企业管理的方方面面,并面临着海量个性化数据服务的挑战。 6 多引擎 数据的使用场景不仅仅限于用户域,而拓展到了研发、制造、流通等全链条;看数据和用数据的人从管理层向经营层和执行层拓展。 更多用户,更多数据,更多场景。 多云5 数据产品及应用需要摆脱对高级人才的依赖,让更多的普通开发者能加入研发,开发可用、易用的数据服务和应用,让业务人员能更灵活地使用数据及AI应用,产生业务价值。 4 多源异构 一个数据引擎无法应对所有场 景。目前存在离线、实时、即 席查询、图计算和时序五大引 擎,未来还有向量引擎。如何 避免引擎烟囱,统一开展多引 擎混合部署和调度,成为平台 建设的关键难题。 使用多家云计算厂商的服务,成 为显著趋势。根据Snowflake 的统计,每个美国客户平均使 用3.8朵云;根据字节云的调研, 中国的大型客户平均使用5朵 云。国内还有大量自建和租用 服务器的用户。 数据从最早的系统结构化数 据,拓展到了更多的非结构化 领域,包括IoT、日志、图片和 视频等等;数据库表从早期的 Oracle、MySQL等少数几种拓 展到近百种自研和市售产品。 越来越多的云计算资源,越来越 复杂的数据库引擎,越来越多元技术 数据云 异构的数据源,如何建立底座? 业务 越来越多的数据主体,越来越多 的产品和应用,越来越复杂而多 元的业务场景,如何产生价值? 数据云不仅能成为企业核心系统,而且持续产出业务和技术价值,让数据的分析应用更简单,运维更容易,数据更安全。 数据云的特性 统一提供数据服务,降低使用门槛,业务易用 统一规划建设数据云,封装复杂性,提供易用性 由数据管理组织主导建设, 数据云成为核心系统 统一建设和运维,IT维护与优化便捷,成本更优 统一数据安全分级分类,风险管控智能化,便于数据安全分享 数据云七大常见场景,让规划建设有章可循 企业数据基础设施建设需配合业务变化 挑战不会一成不变。企业数据基础设施建设既不能“一蹴而就”,也无法“一劳永逸”。 随着企业数字化程度加深,各部门对数据应用需求从“看数”延伸至“用数”,上层数据分析对底层数据基础设施的要求随之变高。企业需结合当下情况及阶段性未来规划,搭建数据基础设施并持续完善升级。 因此,从过去600+数据云建设案例中,我们总结出了数据云七大常见场景,方便企业查询所处阶段,并为即将到来的挑战做好准备。 场景查询索引 HANA等搭建的数据仓库 析需求。 企业数据基础设施现状常见痛点对应场景方案有基于MySQL、Oracle、技术部门应对的不只是运营需求,还更多承接分传统数仓升级 / P5 曾自建开源数据平台分析需求升级,需要多引擎技术支持,由此需数据技术栈优化 / P11 已完成业务系统IT化存了大量数据但用不起来。数据中台建设 / P19 已完成数据基础设施建设1.缺乏体系性的数据资产建设规划。数据资产治理 / P28 1.中大型集团企业,需要向1.保障集团内各业务单元/部门进行安全隔离,集团各个部门提供数据服务同时计算资源要合理分配,支持共享或隔离。集团数据云服务 / P42 1.使用了免费版CDH,或所中国(例如Teradata)需要寻找国产的、安全合规的替代产品。自主可控替代 / P49 使用传统数仓处理需求,遇到商业及技术问题。 应对多源异构计算、数据存储等复杂问题。 2.治理后未形成合理的数据架构和运维体系,随着业务迭代,易再次陷入混乱。 2.需要跨国跨云 2.数据平台庞大,对IT团队数据能力要求高,运维困难。 使用产品的经营实体已退出 2.有硬性要求,必须使用国内研发的自主可控数据产品 (例如国央企) 需要保障企业各系统内数据的安全合规 1.数据安全相关法规、要求多,不知从何下手。 2.需要同时满足数据安全合规与业务发展的要求。 数据安全合规 /P51 附:数据基础设施演进路线 企业数据基础设施建设,终将走向DT3.0数据云时代 在从IT(信息技术)到DT(数据技术)时代转变的过程中,数据系统的重要性日益凸显。 伴随数字化认知的加深,不仅是互联网行业,各行各业都涌现出了对数据能力的需求。数据技术创新迎来爆发式增长。其中,大部分企业并不冒进,而是谨慎入局,往往选择从报表等单点分析入手,对数据的需求多处于“看”的阶段,并未在核心系统中大规模应用。因此技术层面,数据仓库+BI工具就能满足业务需求。在这个阶段,企业对数据技术的可靠性要求较低,即便数据仓库崩溃,影响也在可控范围。 在流量红利消失等市场变化推动下,企业的增长方式不得不从粗放式转为精细化运营,近年更是开始注重在精准营销、供应链管理等领域投入。“用数”需求加深,DT时代从1.0迈向2.0。 在这些企业中,数据已从边缘系统进入核心系统,作为基础设施直接赋能业务决策,与业务增长密不可分。 当数据系统正式成为生产系统,企业对数据技术的可靠性要求更高。虽然数据仓库技术早在上世纪80年代就已经出现,但后来随着云计算的出现和存算基础设施的更新,以Hadoop为代表的大数据平台开始成为主流,“上云”成为新的趋势。近年,数据量的指数级增长和AI的超速发展,推动企业从“上云”走向“云上”。基于云原生技术搭建数据云平台,已成为企业的主流选择。 未来,数据作为AI的基础,将极大程度上推动人工智能的发展,数据云也会成为DT3.0时代的AI基础设施。 1.0单一IT系统 2.0多个IT系统 3.0复杂IT系统 IT时代 20世纪80年代 2010 2015 DT时代 1.0数据仓库 2.0大数据产品 3.0数据云 生态变迁 云下环境 大数据产品阶段 开始上云 变成must-havepartner 构建AI基础设施 云上环境 主要服务商 国外厂商主导 国内厂商追赶 国内外并行发展 图:数据系统的演进 传统数仓升级 企业用数需求加深,传统数仓无法充分承担分析需求 数据仓库是企业的重要基础设施,在数字化转型过程中发挥着至关重要的作用。多年来,众多大中型企业建设了基于MPP(大规模并行处理,MassivelyParallelProcessing)数据库的数据仓库,例如以Teradata、Oracle、IBM等厂商为代表的传统数仓。但在当下分析时效要求越来越高、数据需求变化越来越快、数据量越来越庞大的形势下,传统的数据仓库无论在成本、灵活性还是开放性,都显露出诸多不足,渐渐无法满足数字化深水区企业的数据需求。 大数据+云计算时代,企业亟需既能适应业务弹性变化、又能提供良好分析体验的新一代数据仓库解决方案。 而在选择新型数仓之前,企业需知晓两个前提: OLTP和OLAP系统必须分离; 企业数据基础设施现状常见痛点关键问题落地实践重点关注 在OLAP系统的选择上,由以Hadoop为代表的分布式大数据平台替代MPP数仓是最优解。 有基于MySQL、Oracle、HANA等搭建的数据仓库技术部门应对的不只是运营需求,还更多承接分析需求。使用传统数仓处理需求,遇到商业及技术问题。 1.为什么需要分离OLTP、OLAP?2.为什么用分布式大数据平台替代MPP数仓是必然选择? 平台部署可大可小多源数据集成运维服务支撑 数据云场景指南 为什么需要分离OLTP与OLAP? 数据处理大致分为OLTP(On-LineTransactionProcessing,联机事务处理)和OLAP(On-LineAnalyticalProcessing,联机分析处理)两类。 OLTP主要用于基本的、日常的事务处理,尤其是处理大量的交易数据,例如电商交易环境下的订单、支付、库存等。在OLTP场景中,用户并发操作量大,要求系统实时进行数据操作响应,在查询时往往也只会检索一条或几条明确的目标数据,以实现用户的业务交互。 OLAP是数据仓库系统的主要应用,支持对海量数据进行复杂的统计分析操作,更侧重决策支持,并提供直观易懂的查询结果,例如电商场景中常见的根据用户行为进行用户画像、做商品推荐等。在OLAP场景中,用户需要对历史数据进行汇总、对比和计算,以得到分析结果。 在OLAP发展早期,其操作并没有专门的数据库支撑,企业选择直接与OLTP业务放在同一个数据库中完成。但随着业务量增加,OLAP需要处理的数据量也随之增加,给OLTP系统带来了过大负担,在执行时会导致业务交易性能下降。因此业内开始将OLTP、OLAP拆分成两套不同的数据库进行处理。 OLTP支持日常事务操作的业务交易数据关注业务事物的详细信息,颗粒度较细实时更新采用第三范式,数据高度归一化支持简单的查询、更新和处理业务操作人员负荷较重,强调高并发和快速响应 OLAP⽀持决策分析和报告的分析型数据 通过汇总和抽象提供概览信息,颗粒度较粗 较少更新,以提供⻓期历史视图 采用星型或雪花型模型,包含事实表和维度表 ⽀持复杂的分组、组合和多维分析查询管理⼈员和分析⼈员负荷较轻,侧重批量检索和复杂计算 对象 颗粒度数据更新数据库设计查询类型 用户系统负荷 为什么用分布式大数据平台替代MPP数仓是必然选择? MPP架构的诞生解决了“数据多,很难在一台物理机器上分析数据”的难题,但它支持的应用以小集群、低并发场景为主。近年来,随着数据的快速增长和新兴业务的不断产生,MPP数据库因缺乏支持现代分析和数据科学所需的灵活性,逐渐被以Hadoop为代表的分布式大数据平台替代。 要素 相较于MPP数仓,分布式大数据平台具备吞吐量大、扩展性和容错性好、硬件成本相对低及灵活处理多种类型数据等优势,在面向OLAP场景时可实现更好的性能,降低延迟,更匹配当下企业的数据分析需求。 传统的MPP数据仓库 以DataSimba为代表的分布式大数据平台 DataCloud 封闭系统,需搭配专有硬 件与运维服务,对其他业 务系统数据集成困难。 封闭 不支持大规模分布式,系 统超过6个节点后,加速比 几乎为零,难以支持超1T 的大数据场景。 弱 仅支持关系型数据库。 单一 使用专有DSL语言,开发人 员招聘难度较大。 高 坚持开放工业标准,提供完善 开放 的OpenAPI;底层可基于常规 PC服务器,也支持全球9大 IaaS云,并已实现云原生优化; 与国产CPU、数据库、操作系统 均有完整互认证。 扩展性强,已实现100%容器 强 化;具备故障自愈(Failover) 机制,可吸收硬件设备的故障 和异常;可支持上百节点。 混合 支持批、流、图、即席、时序等 多种类型的Job混合调度与租 户隔离。 低 使用开放通用语言,开发技术 门槛相对低;提供企业级的官 方运维服务。 系统开放 拓展性 计算模型 人力成本 平台部署可大可小 分布式大数据平台应“可大可小” 在数字化能力构建过程中,企业所处的行业不同、自身量级不同,对数据基础设施的需求也极为多元。一个好的分布式大数据平台需要具备可扩展能力,