中国力量 博睿数据 中国先进企业IT运维精选案例集 2023…… SELECTEDCASESETS银行证券能源 CONTENTS 目录 01信息产业 02运营商 曙光信息产业股份有限公司 03能源 01 联通沃音乐文化有限公司 04银行 04 中国海洋石油集团有限公司中国石化集团公司 08 12 平安银行中国光大银行中国建设银行 15 1821 05证券 中国农业银行 06保险 25 国泰君安证券 28 泰康保险 37 招商证券31 中信建投证券34 |让IT运营更智能 搭建统一运维平台 博睿数据赋能中科曙光排障升级 通过深度了解中科曙光痛点,博睿数据以应用评分体系、代码级故障定位、分析关联能力建设、智能探针技术引用为主要抓手,为中科曙光搭建统一运维平台,大幅降低人力成本的前提下提升排障效率,帮助实现了系统性能的全面升级。 使用产品 BonreeServer 01 背景分析 1 亟需建立统一运维平台 管理分散、运维系统多,日常巡检、服务请求、问题查询都通过登录不同的运维平台进行操作,背后对接的都是生产系统。 2 希望降低运维工作的人力投入 3 架构复杂,几十个办事处,工作及时性差:各运维人员管辖的应用系统、主机、存储数量多,巡检工作都是手工进行,无法为系统稳定运行提供技术支撑。 目标建立更加高效的排障体系 总是被动的接收投诉和反馈,没有分析工具能够提供系统故障的根因,分公司系统出故障,往往需要两周到一个月的时间解决问题。 应用场景 1 直观展示当前业务应用系统可用性和业务性能情况 直观展示当前业务应用系统可用性和业务性能情况,为曙光用户提供统一的应用数据平台,实时让曙光职能人员、运维、研发感知当前应用系统监控性能情况。 2 根因分析助力中科曙光高效优化系统 通过可视化数据展现,曙光职能人员经过博睿APM平台获取根因日志,定位曙光内部业务链条的性能瓶颈节点。研发人员调优后错误率降低70%,响应时间降低92%,解决性能瓶颈后,OA整体业务性能提升10倍以上。 为什么选择博睿数据 稳定简捷的产品 开箱即用的使用体验,易配置、易维护 公司实力国内领先 国内首家APM领域上市公司,实力雄厚 应用效果 可视化评测应用系统性能,优 主动发现核心业务系统性能瓶颈,优 化系统架构 化后系统整体响应时间提升10倍以上 统一数据平台,有效联动内部 通过Server平台统一展示各个分公司 各IT职能部门 及总部的应用系统,有效联动各职能 人员,提高沟通效率 业务系统发生缓慢时,总部人员不必 降低运维难度,提高运维效率 再长时间出差排查问题,提高工作人 员运维效率 |让IT运营更智能 全栈式监控 助力联通沃音乐核心业务高效稳定运行 面对联通沃音乐日益复杂的系统与不断增长的用户数量,博睿数据通过统一的智慧运维监控平台,将端(APP/H5/小程序等)、管(网络延时/流量等)、云(基础设施云/物理机/数据库)、台(业务系统APM性监控)进行全流程监控,实时保障用户的产品体验。 使用产品 BonreeDataview 04 背景分析 1 业务复杂性与日俱增 2 随着联通沃音乐业务系统快速发展,业务应用程序复杂性的日益激增,包括系统不断迭代、应用运行环境云端化,以及应用对其他IT基础设施的依赖等。 保障用户体验的重要性不断增加 联通沃音乐业务模式随着市场需求不断的拓展延伸,用户群体数目持续的上升,对服务体验要求也更加的苛刻。 3 问题出现率增加,造成用户流失 发生性能下降,服务异常,请求失败等问题的概率大大提升,从而影响正常的服务,最终导致用户流失。 应用场景 1 搭建统一智慧运维监控平台,实现全栈式监控 博睿数据为联通沃音乐搭建了统一智慧运维监控平台,实现了全栈式监控,将端(APP/H5/小程序等)、管(网络延时/流量等)、云(基础设施云/物理机/数据库)、台(业务系统APM性监控)进行全流程监控,打破数据孤岛,实时保障用户的产品体验。 2 搭建可视化大屏,实现快速问题定位 博睿数据通过定制化的大屏接入监控平台的数据,实现对业务、应用程序、数据库、远程调用等访问环节的数据分析及展现。大屏在满足联通沃音乐实际的监控需求的基础上,兼顾了美观、先进、灵活等特点,值班人员可根据大屏进行24小时监控,方便快速发现并定位问题。 3 快速定位根因,进行智能处置 博睿数据将请求调用过程完整的串联起来,实现了对请求调用路径的监控,便于故障快速定位。通过对调用链上关键环境进行下钻分析,缩小故障范围。同时,智能基线可通过动态/静态双重算法机制应对访问突增进行趋势研判。 为什么选择博睿数据 产品灵活性强 博睿数据产品易配置,可开箱即用,简捷又高效 技术领先性强 博睿数据专注技术创新,软件研发水平国内领先 应用效果 监控范围更广,做到无死角,对各核心应用统 从基础架构的监控做到应用级别和数据包级别的监控, 一进行性能管理 针对性的把握每个系统的用户体验,做到业务系统100% 的用户体验管理 从硬件或网络的监测粒度,提升到程序代码本身的深度,效 监测的深度更深,定位到代码级别的问题 率提升5倍 平均故障恢复时间降低80%,降低人员运维和时间成本 运维的效率更高,提升MTTR 80% 系统的持续交付能力更强 快速协同优化,性能和用户体验标准做到100%统一评判 实现业务系统性能可视化,主动预警 全年主动减少至少12次性能事件 |让IT运营更智能 推动业务能力提升 博睿数据为多云资源管理添利器 通过BonreeONE,博睿数据助力中国海油建立多云平台的资源管理指标体系,对主机、虚拟主机、网络、存储、容器化服务进行动态资源监控,实现云平台基础设施资源的可量化分配与回收。同时助力中国海油建立以业务为中心的应用系统SLO监测机制,为云上关键应用系统的资源消耗、应用可用性、服务质量提供可量化的监控数据,有效提升业务稳定性与运维效率。 使用产品 BonreeONE 08 背景分析 1 云平台资源庞杂,难以从全局视角进行管理 2 中国海油云平台经过多年建设,形成了覆盖国内五中心、海外三中心的多云架构,整体资源数量庞大且复杂,各云平台资源使用缺乏集中化展示与分析,全局管理难度高。 业务资源消耗不清晰,缺乏集中化统计 中国海油云平台业务整体资源消耗缺乏集中化统计,无法对资源进行合理调整分配,难以进行业务ROI分析。 3 闲置资源用量缺乏量化依据,间接造成资源浪费 中国海油各业务系统暂无统计历史业务资源消耗的数据,进行容量申请时缺少资源基准和闲置资源用量的量化依据。 4 各系统监控指标体系不同,不方便全面监控管理 中国海油各业务系统监控指标体系不同,不方便系统的全面的监控,难以建立标准的故障分类及资源评估体系。 5 故障定位时间长,跨部门故障追踪困难 中国海油系统不具有故障的回溯追踪能力,偶发故障数据无法留存,导致复杂故障的诊断定位时间长,影响MTTD,在跨部门的诊断中,排查工具所生成的指标、数据难以关联,故障追踪较难。 应用场景 建立统一资源监控体系标准,实现资源标准化分层 1 博睿数据通过为中国海油建立统一的云平台资源监控体系标准,实现云平台的各类资源的标准化分层,并通过对各平台指标数据的采集,形成统一的监控视图及分析界面。 IaaS层主要包含:主机、虚拟主机、网络设备、网络接口、存储、文件系统、系统进程等7类主要实体;PaaS层主要包含:容器Cluster、Nodes、Workloads、Jobs、Services、Pods、Routes、Images以及云服务等9类主要实体;SaaS层主要包含:云服务、实例、应用、MQ、DB、API等6类主要实。 2 对系统资源用量进行数据采集,定期评估资源使用效率 在博睿数据的助力下,中国海油实现对各业务系统的资源用量数据采集,通过资源指标体系中的实体关系数据关联各业务系统的资源消耗,实现对各业务系统的资源动态监测及分析报告,定期评估各业务系统的资源使用效率。同时,为主要资源类型建立业务属性标签(Tag),以实现各业务系统云资源用量的动态监测与分摊。 IaaS层的主机、虚拟机、存储、网络链路; PaaS层的容器Pods、工作负载、服务,云服务的请求量;SaaS层的进程资源用量,远程API调用量,数据库调用量。 3 建立容量规划报告,提高资源利用率 博睿数据通过历史指标体系数据量化中国海油云平台的各类容量,以及业务系统的单位业务资源用量,建立云平台的容量规划报告、业务系统的容量扩展评估规范,提高云平台的资源使用效率。 按照各云平台的:Core数量、内存容量、存储容量、网络带宽、云服务请求量,等类型的周期容量进行下一周期的线性与非线性容量预测及建议; 规范业务系统容量申请评估标准,各业务系统进行资源申请时,即时输出月、季度、半年度资源使用趋势,并基于单位业务资源消耗进行容量评估。 4 建立SLO监测体系,实现各业务系统全面的可观测性 博睿数据以VALET模型作为各业务系统SLO监控的统一模型,并通过应用探针采集各业务系统的黄金指标作为SLI(服务水平指标),从而为中国海油建立SLO监测体系。 以部门考核目标为标准,按照VALET模型设定关键用户旅程(CriticalUserJourney)SLO;采用错误预算的阈值设置SLO报警,并推送至平台运维人员或业务用户。 5 增加应用组件指标采集,提升故障诊断能力 将博睿数据ONE平台的应用探针作为ADDP的Agent采集端,在采集调用链(Tracing)的基础上,增加采集了应用组件指标(Metric),提升故障诊断能力。 以业务部门为单位,提供自有应用系统的调用链追踪与分析功能权限,从而提升故障诊断能力; 实现对应用组件调用链(Trace)、指标(Metric)、堆栈信息(Log)的实时采集与留存; 针对异常请求,可实时检索异常请求在应用系统中所流转的各组件的指标数据,并通过堆栈信息对错误进行代码及分析。 6 打破部门数据孤岛,提升故障协同诊断效率 通过博睿数据ITIM探针与APM探针数据的集中采集,实现应用和基础资源的关联分析,并通过指标体系实现应用、系统等各层级的SLI分层关联,统一故障诊断的界面入口与数据集成,从而提升故障协同诊断效率。 统一故障协同分析界面,实现应用、服务、接口、方法、实例、进程、容器、主机、数据库的依赖关联; 通过分布式追踪能力,实现基于应用、服务、数据库的实体影响依赖关联; 通过标准化检测指标体系,以及实体类型与关系,形成统一的告警事件语言,并通过多种方式进行告警事件的收敛,降低告警冗余度。 为什么选择博睿数据 市场规模领先 中国APM市场份额排名No.1,稳定为客户提供服 务超过14年 具备全球竞争力的产品 一体化智能可观测性平台BonreeONE,真正实现 业务应用全链路可观测 应用效果 将云平台的各类资源分为IaaS层、PaaS层、SaaS层,方 实现资源标准化分层 便从全局视角管理 以VALET模型作为各业务系统SLO监控的统一模型,实现全 建立SLO监测体系 面可观测 缩短MTTD(平均故障检测时间) 实现故障回溯追踪,缩短平均故障检测时间 提升跨部门协调诊断能力 实现应用和基础资源的关联分析,打破部门间的数据孤岛 |让IT运营更智能 数字化新运维 ⸺中国石化的运维转型之路 博睿数据为中国石化注入更新的运维方法。通过SmartAgent探针,无需研发配合,即可自动识别各语言应用程序,做到自动化全方法的追踪与分析,包括系统级代码和用户级代码,可呈现每一个类、每一个方法的执行效率,全面展现功能群组间的拓扑调用关系及业务调用节点的健康性能。在中国石化的业务节点故障场景中,帮助IT人员迅速定位问题节点,缩短故障恢复时间,提升IT服务工作效率。 使用产品 BonreeServer 12 背景分析 1