您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:智能AI企业大数据中台建设方案 - 发现报告
当前位置:首页/行业研究/报告详情/

智能AI企业大数据中台建设方案

信息技术2024-07-03-未知机构米***
智能AI企业大数据中台建设方案

智能AI企业大数据中台建设方案 如何建立大数据深中台面向业务互联互通共享共建定位纵向业务开放式API拥抱开源深入理解场景联通型组件共建生态快速打磨迭代多云化支持共享资源 01从大数据平台到大数据中台目录02业务驱动的大数据中台CONTENTS03技术大数据中台建立参考模式与思考 什么是大数据大数据通常具有“4v"(Volume,Variety,Velocity,Value)特征一一大数据时代AREVOLUTIONTWETIVELWURANSFOENHON大数据时代生活、工作与思维的大变革 大数据平台的起源一ExceI是小数据量最好分析工具组合图制作所见即所得。环比增长一0一交易规模产品使用方便,人员易400035003537亿元上手3000支持各种定制化展示25002668亿元20002098亿元支持简单的数据挖掘150032.20%27.20%业务部门容易使用100016.90%16.40%5003.20%0一季度二季度三季度四季度2013年2624年无招胜有招访问数 Line Fit Plot多少金融模型来自于Excel12000104141000010304.328000销售额600050265223.75销售额40002089.50预测销售额20001055072053103.45535.691000010.2450.09200004000060000800001000001200000访问数 原——集美貌与智慧一身的“SQL Server”大数据平台的起源Excel+SSRS+MSOLAP免费第三方统计工具:数据处理调例如,度SSISSQL Server EngineXX方舟源数据库Nginx 大数据平台的起源一一集美貌与智慧一身的“SQL Server”一个软件覆盖了这个阶段数据处理的所有功能支持各种数据源的集成支持ETL调度·支持报表展示·支持OLAP数据量在几亿条之内(每天50万,一年1.5亿),查询效率0K,如果扩展cluster,支持更好。小数据分析神器Excel,完美结合,扩展了数据挖掘,展现等功能缺点:数据量大以后,效率跟不上 大数据平台的起源一一传统数据仓库+日志分析工具日增500万,年度过5亿以内,2-4个人,暂时还没有人力搭建hadoopQlik Sense/Tablau/Cognos/BOELK数据处理调度XX本地Informatica,PaaSDatastage,Kettle(免)DB2/Oracle/Greenplum(免)脚本Python源数据库Nginx 大数据平台的建立一一开源平台的引入与数据治理的加强Python MLlib/R/SPSS/SAS数据处理Qlik Sense/Tablau/Cognos/BO调度InformTeradata/主数atica,Greenplum(免)ELK(免)据管DatastXX(免)理age,Stormoozie元数(免)Hive据管Hadoop理脚本PythoN个源数据库nKafka/otherMQNginx 大数据平台的建立——中流砥柱—一Apache Kafka/ApacheHadoop/ApacheHive最皮实的组合·鲁棒性硬件兼容性数据处理稳定性,每个系统大数据存储,都绕不开·缺点:慢! 大数据平台的建立一贵族的开源一一一Greenplum&ApacheHAWQMPP架构,查询速度很快!大数据量SQL查询,除了Teradata,商业化使用最多稳定性强GPDB目前使用最多,HAWQ支持HDFS是未来·缺点:吃硬件,万兆、多SAS盘、服务器很贵.. 大数据平台的建立一一数据量增加、实时计算的引入导致全面开源化Python /R自主研发展示工具(E-chart/D3等)数据处理Kylin(免)/Druid(免)/Presto(免)主数调度据管ApacheGreenplum(免)理DolphinScheduleStormSparkHive(免元数Hadoop(免)(免)据管脚本理PythonN个源数据库Kafka/otherMQNginx 大数据平台的建立一一内存计算的翘楚Apache Spark目前最火的大数据开源项目华人贡献占52%·大数据下数据挖掘必选项SparkR·即使使用磁盘,执行效率优于Hive几倍·支持数据流,Spark SQL..研究生大数据必修课:缺点:如果达到很高效,硬件要支持·数据量比较大,节点比较多,对Scala要求比较高 大数据平台的建立一一OLAP的利器-—Apache Kylin解决了大数据多维度查询速度慢,多维查询数据返回不及时的问题·开源MOLAP利器Apache金牌项目·源自Ebay内部大数据·利用Hbase,加速可以加速Hbase目前腾讯、美团都有在使用,经过实际使用检验中国人自己的开源项目!缺点:预计算时间比较长 大数据平台的建立一一开源ETL调度工具ApacheDolphinScheduler项目定义:工具栏一个分布式易扩展的可视化yg_dev_etl 返同上一节点DAG工作流任务调度系统品山品山品ojuxxx-a"A千帆日数据(A3)千机日数据(5.0)中国人xx开源的项目!被Apache接受成为ApacheDolphinSchedulerMR品kafka_stg_dev品品A2_DEV_ETL_REFORMproduet_ods_dev_standard_bds_dev_app_installation_lis品 一开源ETL调度工具ApacheDolphinScheduler大数据平台的建立一EasySchedulerAzkabanAirflow数据处理稳定性去中心化的多Master和多Worker是是单点故障单个Web和调度程序组合节点单一调度程序不需要(本身就支持HA)HA额外要求DBCelery/ Dask / Mesos+ Load Balancer +DB可视化DAG任务队列机制,单个机器上可调度的任务数量可以灵活任务太多时会卡死服务器任务太多时会卡死服务器过载处理配置,当任务过多时会缓存在任务队列中,不会造成机器卡死易用性任务状态、任务类型、重试次数、任务运行机器、可视只能看到任务状态不能直观区分任务类型DAG监控界面化变量等关键信息一目了然分布式所有流程定义操作都足可视化的,通过拖拽任务来绘制通过自定义DSL绘制DAG并打包上传可视化流程定义通过python代码来绘制DAG,使用不便,特DAG,配置数据源及资源。同时对于第三方系统,提供别是对不会写代码的业务人员基本无法使用api方式的操作。一键部署集群化部署复杂集群化部署复杂快速部可扩展功能是否能暂停和恢支持暂停,恢复操作复只能先将工作流杀死再重新运行只能先将工作流杀死再重新运行支持easyscheduler上的用户可以通过租户和hadoop用户实是否支持多租户现多对一或一对一的映射关系,这对大数据作业的调度是非常重要的。支持传统的shell任务,同时支持大数据平合任务调度MR、Spark、SQL(mysql、postgresql、hive、sparksql)、shell、gobblin、hadoopJava、java、hiveBashOperator、DummyOperator任务类型、pig、spark、hdfsToTeradata、MysqlOperator.HiveOperator、Python、Procedure、Sub_ProcessEmailOperator、HTTPOperator、支持大数据作业sparkhive,mr的调度,同时由于支持多由于不支持多租户,在大数据平台业务合度由于不支持多租户,在大数据平台业务使用租户,与大数据业务更加契合使用不够灵活不够灵活扩展性是否支持自定义是是是任务类型是否支持集群扩是,但是复杂是,但是复杂调度器使用分布式调度,整体的调度能力会随便集群的Executor水平扩展Executor水平扩展展 从大数据平台到大数据中台的转变一一大数据平台的痛点大数据项目启动难整体ROI业务用户活动场景个性产品服务动A/B大数据平台建设周期长,成本高运营改进提升优化增长洞察测试人员互联网运营经验不足数据用户大数据项目效果体现难实时智能经空产分析表盘分析分析分析路径大数据如何解决互联网运营问题大数据系统建设结果是更多的BI报表数据秒级查询引擎魔花计算处理引擎数据整合数据治理大数据建设ROI无法衡量数据联邦知识图谱存储引擎线上数据APPH5JAVA/C小程序IOT异业合作广告媒体超市油卡运营大数据项目执行难数据第一方数据源网银直销ATM电子电话接入数据导入服务端数据库日志API摄像头数据源纷繁复杂积分银行原有的系统第三方数据源外部数据增补多部门协调沟通数据治理问题 从大数据平台到数据中台是一次从技术到业务的飞跃Python/R数据人员都是后台人员?数据自主研发展示工具(E-chart/D3等)·让业务还给业务,提高的业务效率处理Kylin/Druid/Presto/Clickhouse主数调度自主工实时数据分析据管具(可Greenplum/HAWQ理以调度资源)Hive、人工智能、增强智能...StormSpark元数Hadoop据管数据治理,在业务端,而不是技术端梳理理脚本PythonN个源数据库让业务人员、数据科学家直接看到反馈,Kafka/otherMQ而不是传统的软件加工方式Nginx大数据平台+ETL任务+实时数据流 数字化的必然产大数据中台是信息化物近loT/020时代Mobile HWWi-FiSmart ElectricalsRoboticsPCHWBeaconWearablesPOSWeb2.0时代VideoWeb LogWAPADVoice消费者距离Search EngineAPPRecommendationGraphERP/CRM时代E-commenceGPSMESHRCross BorderWeatherWMSGLLogisticsConver。EAMAP远数据对业务的影响力强20 什么是中台?中台是技术从后台走向前台的过渡阶段前台部门,面对客户或者为客户创造产品前台和客户进行交易的地方,和客户进行直接赚钱的FrontOffice的沟通互动。与客户交互,赢得利润的系统(例如、APP)中台业务,顾名思义,是承接前台业务和后台业务的中台MiddleOffice桥梁。一方面为前台人员提供决策支持,可以让他们支持更快赚钱的心无旁骜地为公司赚取利润,另一方面则是监测前台业务流程,降低各类风险事件的发生几率。高效支持前台业务人员及系统的相关系统。后台BackOffice员从事结算工作,保证支付得以进行。也可以技术、人力、合规等部门。支持的运行在后台财务、物流系统,数据仓库系统,JPMORGAN CHASad 如何建立大数据深中台面向业务互联互通共享共建定位纵向业务开放式API拥抱开源深入理解场景联通型组件共建生态快速打磨迭代多云化支持共享资源22 01从大数据平台到大数据中台目录02业务驱动的大数据中台CONTENTS03技术大数据中台建立参考模式与思考 互联网+环境下,流程驱动企业向数据驱动企业转型典型流程驱动企业:典型数据驱动企业:建立新业务流程系统设计固化系建立MVP与数据假设?敏捷开发验证?快速选代精益运营统升级优点:快速适应互联网+变化,根据实际效果快速调整,适应客户优点:流程清晰,开发规范缺点:要求数据分析贯穿整体业务,要求企业业务及调整能力较高缺点:创新之力,无法快速适应变化数据/AI传统BI:事后分析数据大数据:流K山SMARTBI易观方舟程驱动企业SAPBO即时分析BDP海云数据FACE++BMCognos传统CRM/ERP应用移动化应用:应用特定统一流程S自底向上设计SAP全平台、多触点.THINGSSiRED固定软件基础架构云服务:随需而用基础架构UCLOUD固定硬件SQL ServerTMDB2 TERADATA按时计费LenovoORACLE阿里云*面积为企业IT投入成本面积为企业互联网+投入成本24 数字化产品全生命周期的四大视角驱动用户增长数字↑