您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[观远数据]:观远数据性能白皮书_V4.0-2021Q4 - 发现报告
当前位置:首页/行业研究/报告详情/

观远数据性能白皮书_V4.0-2021Q4

信息技术2023-08-25观远数据苏***
观远数据性能白皮书_V4.0-2021Q4

页1 版权所有©杭州观远数据有限公司2021。保留一切权利。 非经本公司书面许可,任何单位和个人不得擅自摘抄、复制本文档内容的部分或全部,并不得以任何形式传播。 商标声明 和其他观远数据商标均为杭州观远数据有限公司的商标。本文档提及的其他所有商标或注册商标,由各自的所有人拥有。 注意 您购买的产品、服务或特性等应受观远数据商业合同和条款的约束,本文档中描述的全部或部分产品、服务或特性可能不在您的购买或使用范围之内。除非合同另有约定,观远数据对本文档内容不做任何明示或暗示的声明或保证。 由于产品版本升级或其他原因,本文档内容会不定期进行更新。除非另有约定,本文档仅作为使用指导,本文档中的所有陈述、信息和建议不构成任何明示或暗示的担保。 目录 1.平台介绍4 2.执行摘要5 3.测试方法和结果6 3.1并发性能6 3.2抽取数据性能7 3.3运算性能8 3.4SMARTETL执行性能10 3.5导出数据限制12 4.结论13 1.平台介绍 观远数据打造的一站式智能分析平台,面向企业提供数据分析可视化与智能决策服务,打通数据采集-数据接入-数据管理-数据开发-数据分析-AI建模-AI模型运行-数据应用全流程,全方位提升企业数据分析的准确性与时效性,并提供可落地的经营预测和智能决策洞察,助力企业实时掌握经营状况,激发个体价值,促进组织创新,让决策更智能。 观远数据提供出色的数据分析功能及优异的用户体验,其数据处理模块采用业界先进的DeltaLake存储+Spark运算,可实现大数据量下的高效率运算。 随着观远数据平台私有化部署用户的不断增加,以及客户对数据平台使用率的不断提升,如何选择合适的硬件配置来匹配数据业务需求,成为一个必须考虑,但却具有挑战性的问题。本文将通过性能指标,对此问题的解决提供一定建议和指导。 (观远数据平台架构图) 2.执行摘要 本文提供的参考值均是基于观远数据内部的测试样本数据和测试环境: 测试样本数据:基于零售业的模拟数据,其中一个样本数据集内容截图: 测试环境配置: 测试结果可以为硬件扩容规划,配置参数调整提供参考。以下即为客户最为关心的用户数承载力和运算性能参考指标: 用户数承载力: (服务器资源配置为16C128G) (服务器资源配置为8C64G) 运算性能参考指标(一个节点,单位:秒): (Guan-Index数据集在不同资源下计算效率) (不同数据集在16核128G资源下计算效率) 3.测试方法和结果 测试覆盖了系统多个方面的性能,每方面都有具备针对性的测试方案。 3.1并发性能 并发测试用于测量系统在多用户高频使用场景下的承受能力以及处理能力,分别通过数据验证成功率和请求响应时间这两个关键指标来体现。 观远数据平台是一个通用的数据处理平台,我们评估了影响系统负载的各种因素后,选取“缓存”这一最影响性能的参数模拟了两种负载场景,使得测试结果具有一定的通用参考性,具体场景为: 每种场景中,我们模拟的用户使用路径为: (1)登录系统 (2)进入目标页面 (3)浏览目标页面所有卡片,停留时间15秒 测试中目标页面总共设计4个卡片,其中2个卡片数据集为100W行20列数据,其余两个卡片数据集为1000W行20列数据。 测试使用的卡片均基于Guan-Index数据集,剔除了外部数据库处理速度的 影响。测试过程中我们不断增加并发数,直到数据验证成功率小于99%或者接口平均响应时间的大于3秒,我们将此刻系统承载的用户数定义为系统极限并发数。然后根据观远提供的容量规划方法论,同时使用系统的人数不会超过总用户数的5%,我们就可以得到系统最大承受用户数的参考值。 由于有缓存的情况下从缓存数据库中获取数据,不会使用spark计算,固多节点不会提升性能。 以下为单节点和双节点的测试结果(已对数据进行取整处理): (服务器资源配置为16C128G) (服务器资源配置为8C64G) 3.2抽取数据性能 抽取数据指的是观远数据平台将外部数据库数据导入到Guan-Index数据仓中,基于Guan-Index的数据集可以利用Spark计算引擎计算实现高效率的数据处理,还可以通过把Guan-Index数据仓库数据抽取到Clickhouse数据库中,使用分布式数据库Clickhouse强大的计算能力,获得更好的卡片制作/浏览性能体验。 数据抽取发生在新建/更新Guan-Index数据集的时候,这里我们通过新建不同大小的Guan-Index数据集来测试观远数据平台,以及通过Guan-Index转化为高性能查询表Clickhouse数据库)的数据抽取性能。 具体测试结果为(已对数据进行取整处理): 由于抽取数据速度受网络速度的影响极大,抽取峰值会达到15~20Mb/s,若网络无法保证观远数据平台和外部数据库之间的连接速度在这个峰值之上,抽取的耗时可能会比参考值大很多。 3.3运算性能 观远数据平台的计算模块使用了业界领先的Spark计算引擎,存储模块使用DeltaLake数据库,以及高性能查询数据库Clickhouse,使得平台有能力高效处理大规模的数据量。 我们通过测试不同体量数据的简单查询所消耗的时间,来评估计算模块的绝对速度;通过典型卡片在不同配置环境(单节点,双节点,CPU增强),相同并发条件下的处理时间,来评估计算模块的扩展性。 以下为具体的结果: (1)计算模块的绝对速度(一个节点) count计算效率 (Guan-Index数据集在不同资源下计算效率) (不同数据集在16核128G资源下计算效率) sum计算效率 (Guan-Index数据集在不同资源下计算效率) (不同数据集在16核128G资源下计算效率) group计算效率 (Guan-Index数据集在不同资源下计算效率) (不同数据集在16核128G资源下计算效率) group&order计算效率 (Guan-Index数据集在不同资源下计算效率) (不同数据集在16核128G资源下计算效率) (2)计算模块增加节点后、增加CPU配置后的性能提升(已对数据进行取整处理): 通过增加服务器资源配置,可以明显提升计算运算性能。当数据量较大且对计算实时性要求比较高的时候,使用Clickhouse可以更快的处理数据,达到秒级甚至毫秒级计算。 由于spark本身并不是针对OLAP数仓业务,会存在解析任务很重的情况存在,所以在执行小任务时。任务解析代价占比会很高,固在做卡片资源上建议使用CPU配置2x的方式更好,对于ETL这种比较大的任务时(执行>1分钟的任务),建议增加双节点。 3.4SmartETL执行性能 SmartETL(简称ETL)主要作用是对大数据进行提取-转换-载入到数据仓库的功能,在处理数据中使用非常频繁,本功能使用的也是Spark作为计算引擎。 针对数据仓库中常用的分层概念,通过以新零售行业最近一年门店线上线下日销售流水常用的ETL作为测试示例,来评估ETL执行性能。 (1)ODS层->DW层: (2)DW层->ADS层: (最近一年门店线上线下日销售流水ETL) (ETL运行过程中CPU监控) ETL运行从结果中可以看出对于一个多输入数据集,最大六百万行级别输入数据集所有ETL串行在服务器为8C64G资源情况下只需要1分16秒处理时间,在16C128G资源情况下只需要40秒左右的处理时间。 客户环境默认自动执行ETL的并行数为1,在资源充足情况下很多可以并行运行的ETL只能够串行执行,大大增加了ETL运行时长,在这种情况下可以给客户调大并行度,降低客户对数据处理时间,满足部分客户对数据实时性高要求的场景。 3.5导出数据限制 卡片表格导出数据是一项经常使用的功能,但是由于此项功能对于内存资源消耗很大,平台默认对导出数据的量进行了限制(50000行),超出限制会提示用户卡片数据超过上限且需要二次确认才可以随机导出50000行。但是由于业务的需要,很多客户有大数据量导出的需求,这种情况下我们就需要根据客户的需求重新配置导出限制。根据内部测试结果,最大行数数据耗时如下: 需要注意的是,下载大数据量表格数据时(10万行以上数据),不建议多人同时导出,这会让内存消耗成倍增加,甚至会拖累系统运行。当客户有对大数据量并发导出的需求,可以通过调大Server内存来满足需求,但是当并发数较多还是存在拖累整个系统的风险。 为了兼容Office2007,导出功能有以下无法修改的限制: 最大行数为100万行。 最大列数为1万6千列。 单个函数最多参数为255个。 单元格格式种类最多64000种。 每个单元格最多包含32767个字符。 4.结论 本文通过并发性能、运算性能、抽取性能、ETL性能和导出性能五个方面对观远数据平台的性能进行了评估,并提供了各方面的性能测试结果。在部署/升级观远数据平台时,这些结果可以为如何选择硬件配置或升级配置提供重要的参考。客户可以根据自己的业务,对比测试中的场景,规划部署的硬件配置。值得注意的是,具体业务的不同会对平台性能产生巨大的影响,优化业务流程有时候比直接升级硬件更能提升性能。 同时,本文也可作为一份了解观远数据平台性能的性能测试报告。当然,随着功能的不断迭代,观远数据平台的性能也会稳步提升,观远数据的愿景是成为数据分析与智能决策的引领者,做客户信赖的长期合作伙伴。 页14 页15

你可能感兴趣

hot

2022移动BI白皮书观远数据

信息技术
观远数据2022-09-19
hot

观远BI功能白皮书V6.0

信息技术
观远数据2023-08-24
hot

观远数据安全白皮书-V1.0

信息技术
观远数据2023-08-25