智能AI企业大数据中台建设方案 如何建立大数据深中台 面向业务 互联互通 共享共建 定位纵向业务 开放式API 拥抱开源 深入理解场景 快速打磨迭代 联通型组件 多云化支持 共建生态共享资源 01从大数据平台到大数据中台 目录02业务驱动的大数据中台 CONTENTS 03技术大数据中台建立参考模式与思考 什么是大数据 大数据通常具有“4v"(Volume,Variety,Velocity,Value)特征一一大数据时代 大数据时代 AREVOLUTIONTWETIVELWURANSFOENHON 生活、工作与思维的大变革 大数据平台的起源一ExceI是小数据量最好分析工具 组合图制作 所见即所得。环比增长一0一交易规模 上手 产品使用方便,人员易4000 35003537亿元 3000 支持各种定制化展示25002668亿元 2098亿元 支持简单的数据挖掘 2000 150032.20% 业务部门容易使用 1000 16.90%16.40% 27.20% 500 0 一季度二季度三季度四季度 3.20% 无招胜有招 2013年2624年 访问数LineFitPlot 多少金融模型来自于Excel1200010414 1000010304.32 8000 销售额 6000 4000 2000 1055072053 2089.50 5026 5223.75销售额 预测销售额 100 0010.24 103.45535.69 50.09 20000 40000 60000 80000100000 120000 0访问数 大数据平台的起源原——集美貌与智慧一身的“SQLServer” 数据处理调 度SSIS Excel+SSRS+MSOLAP 免费第三方统计工具: 例如, SQLServerEngineXX方舟 源数据库 Nginx 大数据平台的起源一一集美貌与智慧一身的“SQLServer” 一个软件覆盖了这个阶段数据处理的所有功能 ✯持各种数据源的集成 ✯持ETL调度 ·✯持报表展示 ·✯持OLAP 数据量在几亿条之内(每天50万,一年1.5亿),查询效率0K,如果扩展cluster, ✯持更好。 小数据分析神器Excel,完美结合,扩展了数据挖掘,展现等功能 缺点:数据量大以后,效率跟不上 大数据平台的起源一一传统数据仓库+日志分析工具 日增500万,年度过5亿以内,2-4个人,暂时还没有人力搭建hadoop 数据处理调 QlikSense/Tablau/Cognos/BO ELK 度XX本地 Informatica,PaaS Datastage, Kettle(免)DB2/Oracle/Greenplum(免) 脚本Python 源数据库Nginx 大数据平台的建立一一开源平台的引入与数据治理的加强 PythonMLlib/R/SPSS/SAS 处理 数据 调度 QlikSense/Tablau/Cognos/BO InformTeradata/ 主数atica,Greenplum(免)ELK(免) 据管DatastXX(免) 理age, oozie 元数(免) Hive Storm 据管Hadoop 理脚本 PythoN个源数据库 n Kafka/otherMQ Nginx 大数据平台的建立——中流砥柱—一ApacheKafka/ApacheHadoop/ApacheHive 最皮实的组合 ·鲁棒性 硬件兼容性 数据处理稳定性 ,每个系统大数据存储,都绕不开 ·缺点:慢! 大数据平台的建立一贵族的开源一一一Greenplum&ApacheHAWQ MPP架构,查询速度很快! 大数据量SQL查询,除了Teradata,商业化使用最多 稳定性强 GPDB目前使用最多,HAWQ✯持HDFS✁未来 ·缺点:吃硬件,万兆、多SAS盘、服务器很贵.. 大数据平台的建立一一数据量增加、实时计算的引入导致全面开源化 Python/R 自主研发展示工具(E-chart/D3等) 数据 处理Kylin(免)/Druid(免)/Presto(免) 主数调度 据管ApacheGreenplum(免) 理Dolphin Schedule StormSpark Hive 元数Hadoop(免) 据管脚本 理Python (免(免) N个源数据库 Kafka/otherMQ Nginx 大数据平台的建立一一内存计算的翘楚ApacheSpark 目前最火的大数据开源项目华人贡献占52% ·大数据下数据挖掘必选项SparkR ·即使使用磁盘,执行效率优于Hive几倍 ·✯持数据流,SparkSQL.. 研究生大数据必修课 :缺点:如果达到很高效,硬件要✯持 ·数据量比较大,节点比较多,对Scala要求比较高 大数据平台的建立一一OLAP的利器-—ApacheKylin 解决了大数据多维度查询速度慢,多维查询数据返回不及时的问题 ·开源MOLAP利器 Apache金牌项目 ·源自Ebay内部大数据 ·利用Hbase,加速可以加速Hbase 目前腾讯、美团都有在使用,经过实际使用检验 中国人自己的开源项目! 缺点:预计算时间比较长 大数据平台的建立一一开源ETL调度工具ApacheDolphinScheduler 项目定义: 一个分布式易扩展的可视化 工具栏 yg_dev_etl返同上一节点 DAG工作流任务调度系统品山品山 品ojuxxx-a"A千帆日数据(A3)千机日数据(5.0) 中国人xx开源的项目! 被Apache接受成为Apache DolphinSchedulerMR品 kafka_stg_dev 品 品 A2_DEV_ETL_REFORMproduet_ods_dev_standard_bds_dev_app_installation_lis 品 大数据平台的建立一 一开源ETL调度工具ApacheDolphinScheduler 数据处理稳定性 单点故障 EasySchedulerAzkabanAirflow 去中心化的多Master和多Worker✁✁ 单个Web和调度程序组合节点单一调度程序 HA额外要求 不需要(本身就✯持HA) DBCelery/Dask/Mesos+LoadBalancer+DB 可视化DAG 过载处理 易用性 任务队列机制,单个机器上可调度的任务数量可以灵活任务太多时会卡死服务器任务太多时会卡死服务器配置,当任务过多时会缓存在任务队列中,不会造成机 器卡死 任务状态、任务类型、重试次数、任务运行机器、可视只能看到任务状态不能直观区分任务类型 分布式 DAG监控界面化变量等关键信息一目了然 可视化流程定义 所有流程定义操作都足可视化的,通过拖拽任务来绘制通过自定义DSL绘制DAG并打包上传 通过python代码来绘制DAG,使用不便,特 快速部 可扩展功能 DAG,配置数据源及资源。同时对于第三方系统,提供别✁对不会写代码的业务人员基本无法使用 api方式的操作。 一键部署集群化部署复杂集群化部署复杂 ✁否能暂停和恢✯持暂停,恢复操作 复只能先将工作流杀死再重新运行只能先将工作流杀死再重新运行 ✯持 ✁否✯持多租户 任务类型 easyscheduler上的用户可以通过租户和hadoop用户实 现多对一或一对一的映射关系,这对大数据作业的调度 ✁非常重要的。 ✯持传统的shell任务,同时✯持大数据平合任务调度 MR、Spark、SQL(mysql、postgresql、hive、sparksql)、 shell、gobblin、hadoopJava、java、hiveBashOperator、DummyOperator 、pig、spark、hdfsToTeradata、MysqlOperator.HiveOperator、 Python、Procedure、Sub_ProcessEmailOperator、HTTPOperator、 合度✯持大数据作业sparkhive,mr的调度,同时由于✯持多由于不✯持多租户,在大数据平台业务由于不✯持多租户,在大数据平台业务使用 扩展性 租户,与大数据业务更加契合使用不够灵活不够灵活 ✁否✯持自定义✁✁✁ 任务类型 ✁否✯持集群扩✁,但✁复杂✁,但✁复杂 展调度器使用分布式调度,整体的调度能力会随便集群的Executor水平扩展Executor水平扩展 从大数据平台到大数据中台的转变一一大数据平台的痛点 大数据项目启动难 整体产品服务 ROI业务用户 动活动场景个性 A/B 大数据平台建设周期长,成本高运营改进提升优化增长洞察测试人员互联网运营经验不足 大数据项目效果体现难数据 实时智能用户 分析表盘分析分析分析路径 大数据如何解决互联网运营问题 大数据系统建设结果✁更多的BI报表数据秒级查询引擎 数据治理 经空产 大数据建设ROI无法衡量 计算魔花 处理引擎数据整合 存储引擎 数据联邦知识图谱 大数据项目执行难 线上数据APPH5小程序IOT异业合作广告媒体超市油卡运营 JAVA/C 数据电子电话 数据源纷繁复杂 接入第一方数据源网银直销ATM 积分银行 数据导入服务端数据库日志API摄像头 原有的系统第三方数据源外部数据增补 多部门协调沟通数据治理问题 从大数据平台到数据中台✁一次从技术到业务的飞跃 Python/R数据人员都✁后台人员? 处理 数据自主研发展示工具(E-chart/D3等)·让业务还给业务,提高的业务效率 主数调度 Kylin/Druid/Presto/Clickhouse 实时数据分析 据理管 自主工 具(可Greenplum/HAWQ 以调度 资源)Hive、人工智能、增强智能... StormSpark 元数Hadoop 数据治理,在业务端,而不✁技术端梳理 据理管 脚本 PythonN个源数据库让业务人员、数据科学家直接看到反馈, Kafka/otherMQ Nginx 而不✁传统的软件加工方式 大数据平台+ETL任务+实时数据流 大数据中台✁信息化 物近 数字化的必然产 loT/020时代 MobileHWWi-FiSmartElectricalsRobotics PCHWBeaconWearablesPOS Web2.0时代Video 消费者距离 WebLogWAPAD SearchEngineAPPRecommendation ERP/CRM时代E-commence MESHR CrossBorder WMSGL Voice Graph GPS Weather EAMAP 远 Logistics Conver。 数据对业务的影响力强 20 什么✁中台?中台✁技术从后台走向前台的过渡阶段 赚钱的 前台部门,面对客户或者为客户创造产品 前台和客户进行交易的地方,和客户进行直接 FrontOffice的沟通互动。 与客户交互,赢得利润的系统(例如、 APP) 中台✯持更快赚钱的MiddleOffice 中台业务,顾名思义,✁承接前台业务和后台业务的桥梁。一方面为前台人员提供决策✯持,可以让他们心无旁骜地为公司赚取利润,另一方面则✁监测前台业务流程,降低各类风险事件的发生几率。 高效✯持前台业务人员及系统的相关系统。 后台BackOffice员从事结算工作,保证✯付得以进行。也可以技术、人 力、合规等部门。✯持的 运行在后台财务、物流系统,数据仓库系统, JPMORGANCHASad 如何建立大数据深中台 面向业务 互联互通 共享共建 定位纵向业务 开放式API 拥抱开源 深入理解场景 快速打磨迭代 联通型组件 多云化✯持 共建生态共享资源 22 01从大数据平台到大数据中台 目录02业务驱动的大数据中台 CONTENTS 03技术大数据中台建立参考模式与思考 互联网+环境下,流程驱动企业向数据驱动企业转型 典型流程驱动企业:典型数据驱动企业: 建立新业务流程系统设计固化系建立MVP与数据假设?敏捷开发验证?快速选代精益运营 统升级优点:快速适应互联网+变化,根据实际效果快速调整