阿里云认证 阿里云认证 阿里云认证 大数据基础知识阿里云大数据分析师ACP认证课程 ‹#› 学习完本课程后,你将能够: 1.了解大数据的概念、特征、发展历程、技术演进与应用场景 2.了解开源大数据平台Hadoop的原理与其主要生态构成 3.了解大数据分析的概念、应用场景与流程 4.了解数据库、数据仓库的原理与区别 5.了解大数据分析所需要的统计基础 课程目标 ‹#› 1.大数据概述 1.1大数据的定义 1.2大数据的特征 1.3大数据的应用领域 1.4开源大数据平台Hadoop 2.大数据分析概述 3.大数据分析的流程 4.大数据分析的技术工具与统计基础 课程目录 ‹#› 大数据就像矿石,需要汇聚、清洗、分析、挖掘等处理才能发挥蕴含的价值 •大数据(BigData) •指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合 •是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 大数据的定义 阿里云认证 阿里云认证 阿里云认证 ‹#› 存储技术和计算能力 的飞速发展 数据作为一种资产 越来越重要 移动互联网 带来爆炸式的数据增长 为什么会有大数据 大数据的处理思路 将问题化简成一个更简单的能处理的问题 将问题拆分成多个可以简单求解的小问题 传统方式 大数据方式 ‹#› 阿里云认证 阿里云认证 阿里云认证 7 ‹#› 大数据的处理思路 将问题化简成一个更简单的能处理的问题 将问题拆分成多个可以简单求解的小问题 传统方式 大数据方式 大数据的处理思路 将问题化简成一个更简单的能处理的问题 将问题拆分成多个可以简单求解的小问题 传统方式 大数据方式 ‹#› 阿里云认证 阿里云认证 阿里云认证 ‹#› 大数据的处理思路 将问题化简成一个更简单的能处理的问题 将问题拆分成多个可以简单求解的小问题 传统方式 大数据方式 ‹#› 电器设备 大数据 电力系统 云计算 •云计算提供存储与计算的基础设施,大数据则是运行在其上的应用。 云计算与大数据 阿里云认证 阿里云认证 阿里云认证 ‹#› •1880年 •美国人口普查局工程师HermanHollerith发明了打孔卡制表机,大大缩短了工作时 间 3 2 •1865年 •银行家HenryFurnese用结构化的方式收集和分析了有关竞争对手的商业活动来获取竞争优势,这被认为是第一次数 据分析的商业应用 •1663年 •JohnGraunt利用统计学建立起对黑死 病早期预警系统的理论 1 大数据的产生与发展-统计学的出现 ‹#› •2005年 •Hadoop这个开源框架被创建出来,专门用于存储和分析大数据集。它的灵活性使它对管理非结构化数据(语音、视频、原始文本等)特别有用,我们正在越来越多地生成和收集 这些数据 6 •2004年 •始于出版社经营者O'Reilly和MediaLiveInternational之间的一场头脑风暴论坛,Web2.0诞生,即用户生成的Web,其中大部分内容将由服务的用户提供,而不是服务 提供者本身 5 •2004年 •Facebook这样的社交软件开始出现 4 大数据的产生与发展-数据大爆炸开启 阿里云认证 阿里云认证 阿里云认证 ‹#› •2015年 •国务院发布《促进大数据发展的行动纲要》, 大数据上升到了国家战略层面 9 8 •2014年 •Spark、Storm、Flink成为Apache开源项目,流式计算引擎逐渐投入 应用 •2013年 •国内云计算热潮兴起,阿里云成为世界上第 一家对外提供5K云计算服务能力的公司 7 大数据的产生与发展-数据时代全面到来 ‹#› 1.大数据概述 1.1大数据的定义 1.2大数据的特征 1.3大数据的应用领域 1.4开源大数据平台Hadoop 2.大数据分析概述 3.大数据分析的流程 4.大数据分析的技术工具与统计基础 课程目录 阿里云认证 阿里云认证 阿里云认证 ‹#› Velocity处理速度快 Value价值密度低 Variety种类繁多 Volume体量巨大 大数据的特征 •大数据(BigData) •指无法在可承受的时间范围内用常规软件工具进行捕捉、管理和处理的数据集合 •是需要新处理模式才能具有更强的决策力、洞察发现力和流程优化能力的海量、高增长率和多样化的信息资产。 •大数据的4V特征: ‹#› 一些大企业的数据量:EB量级 人类生产的所有印刷材料:200PB 个人计算机硬盘的容量:TB量级 •根据IDC做出的估测,数据一直都在以每年50%的速度增长,即两年增长一倍 •人类在最近两年产出的数据量相当于之前产生的全部数据量 •人类生产的所有印刷材料的数据量是200PB •历史上全人类说过的所有的话的数据量大约是5EB(1EB=1024PB) 大数据的特征–体量巨大 阿里云认证 阿里云认证 阿里云认证 ‹#› 物联网 互联网 企业应用 科学研究 大数据的特征–种类繁多 •10%为结构化数据,通常存储在数据库中 •90%为非结构化数据,格式多种多样 •基因组 •地球与空间探测 •交易记录 •应用日志 •文档、文件 •文本 •图像、视频 •查询日志、点击流 •传感器 •监测设备 ‹#› •最高峰值订单54.4万笔/秒 •单日处理数据量达到970PB •从数据的生成到消费,时间窗口非常小,可用于生成决策的时间非常少。 大数据的特征–处理速度快 阿里云认证 阿里云认证 阿里云认证 ‹#› 视频 财务报表 •以视频为例,一部1小时的视频,在不间断的监控中,有用数据可能仅有几秒,价值密度低,商业 价值高。 大数据的特征–价值密度低 ‹#› 1.大数据概述 1.1大数据的定义 1.2大数据的特征 1.3大数据的应用领域 1.4开源大数据平台Hadoop 2.大数据分析概述 3.大数据分析的流程 4.大数据分析的技术工具与统计基础 课程目录 阿里云认证 阿里云认证 阿里云认证 ‹#› 政府 教育 交通 制造 大数据 农业 金融 能源 电商 •大数据在许多行业都有着广泛的应用 大数据的应用领域 ‹#› •2016年,杭州市政府联合各阿里云等企业开始建设“城市大脑”。2017年的云栖大会上,城市 大脑1.0正式发布。次年的云栖大会发布了更加强大的2.0版本。 大数据应用场景示例-城市治理 阿里云认证 阿里云认证 阿里云认证 ‹#› •大数据预测早期癌症 •通过对血常规、血生化和尿常规数据进行分析预测,为每个体检者预测出一个患癌症的风险几率。 •然后将预测结果与癌症患者已有指标进行对比,采用大数据标准评估和人工智能模拟技术,动态评估预测体检者的早期 癌症风险。 大数据应用场景示例-医疗 ‹#› 1.大数据概述 1.1大数据的定义 1.2大数据的特征 1.3大数据的应用领域 1.4开源大数据平台Hadoop 2.大数据分析概述 3.大数据分析的流程 4.大数据分析的技术工具与统计基础 课程目录 阿里云认证 阿里云认证 阿里云认证 ‹#› Hadoop概述 •Hadoop是一个在计算机硬件的集群上存储数据、 运行应用程序的开源的软件框架。 •解决大数据运算的框架方案 •大规模的存储/计算 •对于大型的Job处理速度非常快 •多种多样的处理引擎,如:Tez、Spark、Storm等 ‹#› •高可靠性: •Hadoop按位存储和处理数据的能力值得人们信赖 •高扩展性: •Hadoop在计算机集群间分配数据并完成计算,可以方便地扩展到数以千计的节点中 •高效性: •Hadoop能够在节点之间动态地移动数据,因此处理速度非常快 •高容错性: •Hadoop能够自动保存数据的多个副本,并且能够自动将失败的任务重新分配 •低成本: •与一体机、商用数据仓库以及数据集市相比,Hadoop是开源的,项目的软件成本因此会大大降低 Hadoop的特点 阿里云认证 阿里云认证 阿里云认证 传统的关系型数据库 Hadoop 模式 着重数据写入 着重数据读出 速度 读取速度更快 写的速度很快 数据治理 标准的结构化的数据 可以不是结构化标准 的 处理 有限的,没有数据处理 数据处理 数据类型 结构化 结构化半结构化非结构化 更适用于 交互式的OLAP分析复杂的ACID事务数据操作 数据挖掘 处理非结构化数据大量的数据存储/处理 ) ‹#› YARN (分布式资源管理器) HDFS(Hadoop分布式文件系统) Spark (分布式内存计算) MapReduce (分布式处理框架) MLlibGraphX SparkStreaming SparkSQL PIG (脚本处理) Hive (SQL处理 Oozie(工作流调度系统) Ambari(分布式集群配置管理工具) Hadoop生态概览 ‹#› HDFS是HadoopDistributedFileSystem的简称,是Hadoop抽象文件系统的一种实现。 •适合海量数据存储 •适合大数据量批处理 •一次性写入,多次读取 •保证数据一致性 •通过多副本提高可靠性 HDFS文件系统 阿里云认证 阿里云认证 阿里云认证 ZooKeeper (分布式协调服务) Hbase (列式存储数据库) Flume (日志收集) Sqoop (数据交换) e ‹#› ApacheMapReduce •是从GoogleMapReduce派生而来的 •MapReduce是一种编程模型,用于大规模数据集(大于1TB )的并行运算 •适合大规模数据处理 •每个node处理数据后都将会存储在这个node上 •每个MapReducejob都是由两个阶段组成的:Map/Reduc MapReduce 分布式离线计算框架-MapReduce MapReduce的例子 Combine Shuffle/Sort Iwishtowishthewishyouwishto Iwishtowishthewishyouwishtowish,butifyouwishthewishthe wish,butifyou wish111 but1 if1 wish3 but1 if1 the121 to21 If1 the4 to3 wish11 wishes1 wishtowish witch1 witch1 wishes1wishes1 wish witch1 won’t1 you3 witchwished,II won’twon’t wishthewishyouwish wishtowishtheyou to 1 1 1111 1 1 1 I won’t1 wishtheyouto 1 434 4 1 1 1 wishes1 witch1 won’t1 you111 ‹#› Reduce Map Splitting 阿里云认证 阿里云认证 阿里云认证 I 1 I 1 wish 1111 wish 4 but 1 to 11 to 2 I 11 the 1 the 1 If 1 but 1 you 1 you 1 I 2 witchwished,Iwon’twishth ewishtheyou 1 you 1 wishthewishyou the 11 the 2 ‹#› Hive是基于Hadoop的一个数据仓库工具,用来进行数据提取、转化、加载,这是一种可以存储、查 询和分析存储在Hadoop中的大规模数据的机制。 •操作接口采用类SQL语法,学习成本低 •避免了去写MapReduce,开发效率高 •适用于海量结构化数据离线分析 •WEB访问日志分析(典型应用) •可用于构建离线数据仓库 Hive HBase Hbase是一个高可靠、高性能、面向列、可伸缩的分布式数据库,是谷歌BigTable的开源实现,主要 用来存储非结构化和半结构化的松散数据。 •海量存储,列式存储,高并发 •极易扩展,可以横向添