您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[XOps 风向标!GOPS 全球运维大会暨研运数智化技术峰会 2024 · 上海站]:业务保障与IT资源投入的平衡之道——FinOps下的容量管理实践 - 姜婷婷 - 发现报告
当前位置:首页/行业研究/报告详情/

业务保障与IT资源投入的平衡之道——FinOps下的容量管理实践 - 姜婷婷

AI智能总结
查看更多
业务保障与IT资源投入的平衡之道——FinOps下的容量管理实践 - 姜婷婷

业务保障与IT资源投入的平衡之道 ——FinOps下的容量管理实践 㨹ぜ㩍㮴㮴㕂岲ば㸝霆ⵚ肅⟧剣ꣳⰖ぀ 㩍㮴㮴 侨䰘⚥䗱䚪絑椚⸔椚 ⵚ遤⚌崵霚ծ鵘絶䊨⡲絑낉餏餓崵霚餘ꆀ⥂ꥻ⡤禹䒊霃⿺ Ɤ劍➢✲ꆄ輑遤⚌崵霚ծ鵘絶盗椚䊨⡲鵛10䎃涸霆 鵘絶⡤禹䒊霃կ㖈兰腊崵霚ծ兰腊鵘絶곭㚖䭆剣⚪㺢涸㹊騨 絑낉կ㛇✵㣐垷㘗涸兰腊⻊欰䧭崵霚欽⢾䎾欽㹊騨고湡虽 蜦帿❜䨾2023䎃䏞靃곿♧瘝㤙䎇鄄ISSTA2024鲱⟝崵霚 涸㕂꣢곝紩⠔雳䔶欽կ ⚡➃皍➝ 䒸鎊-㕂岲ば㸝霆ⵚ⥌䜂⻊傞➿Ⱆ雩涸遤⚌叻勍 行业标杆 全面转型的 引领者 人机同行的 先行者 行业开放生态的 布道者 信息化 数字化智能化 生态化 典型成果 国标A级UptimeTier-4 省部级以上科技大奖31项 行业科技技术奖券商唯一一等奖 科技部、上海市及行 业科技课题80多项 首家交易、清算、财务、运营大集中 最早自研交易系统核心系统自研比例90%+ 首个 高等级数据中心 唯一通过CMMI5券商 自主知识产权最多 获奖最多等级最高 行业标准制高点 引领前沿科技研究 集中 交易 发明专利14项软件著作权63项 主持与参与30多项行业技术标准和规范 IT餴彂盗椚꬗⚰涸䮋䧶 㺂ꆀ盗椚涸Ⰼ欰ㄐワ劍 湡䔶㺂ꆀ盗椚涸衅㖑㹊騨 FINOPS㾝劅♸禹絡珘㹁䚍⥂ꥻ 01 IT餴彂盗椚꬗⚰涸䮋䧶 IT餴彂盗椚꨽銳㔐瘷涸꡼곿 各部门是否能对IT资源管理的重要性达成一致共识? 总资源利用率 IT餴彂盗椚꬗⚰涸䮋䧶 •各项IT资源持续投入,如何平衡IT资源投入与成效之间的问题日渐凸显。 1、金融行业的数据敏感性导致无法上公有云,应对突发行情时扩容难度大。 2、监管要求重要系统满足三倍容量冗余,生产、灾备具备同等处理能力,导致资源利用率提升难度增大。 业务保障能力 业务保障能力 总资源利用率 降本增效 应对突发业务压力 IT资源管理 容灾备份 确保服务质量 •通过以全生命周期容量管理为核心的FinOps管理体系,细粒度管控资源分配,可实现业务连续性和成本效率的智慧融合。 02 㺂ꆀ盗椚涸Ⰼ欰ㄐワ劍 㺂ꆀ盗椚䅺Ⰶ䎾欽禹絡Ⰼ欰ㄐワ劍ぐ梠蒜 容量管理全生命周期流程图 项目立项阶段 架构设计阶段 设计评审阶段 上线交维阶段 持续运维阶段 知识沉淀,用于后续其他项目的立项评估 明确业务承载目标,形成业务非功能性需求 将业务需求拆解为细粒度容量指标,考量左移的容量运维需求 结合容量容灾要求,明确部署架构,规划基础资源需求 开发到运维态转换时,接入容量运行态管理机制 定期全链路压测验证容量基线,常态化监控和优化容量水位 ♳絁❜絶꣌媯涸㺂ꆀ盗椚䊨⡲ 交维阶段,以《国泰君安证券数据中心技术运营标准》为依据对拟交付系统进行全面质检,其中容量管理相关的工作包括: 容量指标完备性 系统承载能力 容量指标采集加工 容量应急能力演练 合理资源配置 运维对开发拟交付的容量指标清单进行审核,评估无法全面反映系统承载能力的,退回开发补充。 对移交附加的压测证明材料进行审核,确保各容量指标承载上限清晰,不足的退回补充开展压测。 运维完成实时容量指标的运维数据采集、加工,确保运行监控口径与设计目标口径一致。 运维通过混沌工程等方式验证系统的限流、降级、快速扩展等场景,演练结果不符合要求的系统退回整改。 运维根据业务承载目标、预期增长量、部署架构规划基础资源需求,在生产环境完成资源配置。 ば䊢兰唬䎂〵 䭯絯鵘絶꣌媯涸㺂ꆀ盗椚䊨⡲ 制定定期容量评估考核项,督促管理员、开发共同关注系统容量变化情况。采用分类分级的方法明确不同重要性等级系统的压测要求。 单技术组件 测试组件容量 系统 □测试单一系统的容量 服务 性能测试 测试单一服务的容量,包括单系统、全链路等压测方法; 业务 通过全链路混合场景,测试整体业务的容量。 03 㺂ꆀ盗椚涸衅㖑㹊騨 䒊用㺂ꆀ䭷叻⡤禹㣝㹊㺂ꆀ盗椚涸㛇炄 明确“以用促建,围绕运维场景提炼指标体系”这一原则,建立场景化指标体系。 ⡤禹唙椚䒊用 建立统一的、具有证券行业特性的运维指标体系,从而更准确的量化展现系统运行状态及业务价值,为数据分析、智能运维场景等提供基础条件。 䪮助䩛媯⥂ꥻ 通过技术手段实现指标模型管理、质量管理、计算任务管理、血缘管理,保障指标体系的动态更新和持续运营。 加工日志报文 最终数据 运维数据湖 汇总数据 加工指标实例 䲿⼮㺂ꆀ侨䰘餘ꆀ➢鵘絶侨䰘屛椚䒓㨤 运维数据开发平台 加工指标实例 抽样同步校验 运维数据治理平台 数据治理分析和数据服务管理 67 加工后质量门禁算法接口 加工前质量门禁算法接口 加工质量门禁算法接口 加工指标实例质量主动报警 加工指标质量标准 数据质量门禁服务 数据质量门禁服务 数据资产目录及多维度管理和标记 32 数据质量告警 数据标签管理 数据质量分析 数据血缘分析 数据服务分析 数据服务目录 汇总指标实例 汇总指标质量标准 汇总指标抽样同步校验 数据同步与下发 数据湖库表及kafka结构同步 任务 5数据校验结果汇总 元数据管理 库管理 Schema管理 日志实例校验5.3 指标实例校验任务 告警实例校验任务 日志与指标实例5.2 务 标实例与CMDB、指 标模型映射任务 告警与指标、CMDB映射任务 日志实例抽样同5.1 标实例抽样同步任务 告警实例抽样同步任务 Kafka管理 映射任指 第三方指标 平台指标 Influxdb 数据质量规则管理 步任务指 3指标、日志、配置项… 数据质量门禁服务 数据质量门禁服务 4数据标准下发任务数据质量门禁服务 完整性一致性 唯一性准确性 有效性及时性 1 1 1数据模型管理 22 原始日志报文 汇总指标质量主动报警 运维数据源 配置项、应用架构、日志、报文、指标、告警、知识、管理 原始日志报文 数据模型接口服务各类日志结构、指标模型、告警结构、 配置模型… 指标模型报文模型 日志模型架构模型 告警模型知识模型 配置模型工单模型 ⴔ㽻㺂ꆀ盗椚㹊梡礵絈⻊㺂ꆀ盗椚 借鉴国际国内的相关标准,结合国泰君安自身实践,构建了涵盖业务、服务、组件的分层立体式精细化容量指标体系。 En㣢ter鿈title 主要关注业务场景的运行指标,侧重对用户需求的满足程度。例如:在线用户数峰值(人)、业务总量、交易成交量(笔)、开户数(人)、总线消息处理数(笔)、业务量峰值等。 业务容量 支 撑服务容量 组件容量 从技术视角支撑业务场景的开展,关注具体业务接口的承载目标 。例如:关键功能号、接口、服务场景的请求量、响应时间。 主要管理落脚于资源分配的具体对象,关注单个具体技术组件的承载能力,向上支撑服务容量。 例如:如数据库TPS/QPS、消息队列吞吐率、应用组件TPS/耗时 、各技术组件的CPU、内存、IO、磁盘空间利用率等。 Ⰼ崨玐涸㺂ꆀ盗椚禹絡 容量管理全流程线上化 服务场景 容量概览 数据填报 容量分析 容量优化 容量测算 成本优化 基础能力 权限管理 通知管理 预测能力 容量指标管理 容量对象管理 监控能力 数据底座 数据采集 数据加工 数据质控 数据存储 元数据 配置数据 Ⰼ崨玐涸㺂ꆀ盗椚禹絡 禹絡⨴䐀㾝爙 鸑鵂iCapacity䎂〵㹊梡IT㺂ꆀ盗椚Ⰼ崨玐絁♳⻊ 㢴㽻妃㺂ꆀ䭷叻銻渷 㺂ꆀ㛇絁盗椚 㺂ꆀ⠏⻊䊨⡲絁♳⻊盗椚 㺂ꆀ盗椚⟟⧩-㺂ꆀ錞ⴢ刿猰㷖 䌢䙖⻊䭽꨽錞ⴢ㺂ꆀ䭽䎃䏞㹁劍錞ⴢꟋワ劍㺂ꆀ 定期分析业务运行情况,及时响应行情变化带 来的增量容量需求,规划调整容量水位较高的 服务组件资源配置; 为营销、外部引流等业务需求提供事前容量调节准备。 数据中心按年度收集业务运行数据,协同业务 、开发对业务运行质效进行分析,规划下一年度业务调整方向。 㺂ꆀ盗椚⟟⧩-禹絡㺂ꆀ盗椚歘⫸⤛鵳㺂ꆀ盗椚餘ꆀ䲿⼮ 匬䒊荈⸓⻊ⴼ倗錞ⴭ絕ざKPI罌呍 通过构建评判规则,容量管理系统实现了,从指标完备性、指标质量、容量水位监控度、容量优化工作及成本合理性,5个方面对系统的容量管理工作进行画像。 •自动化判断容量指标完备性; •对水位过高的容量指标进行重点揭示; •根据资源配置总量、指标水位情况,自动生成成本优化建议,推送管理员进行资源回收。 㺂ꆀ盗椚⟟⧩-㢴絶㺂ꆀ䭷叻ⴔ區⿺傞峯㻋㺂ꆀꥧ䝖 支持以主机、组件维度分析基础资源容量使用情况。发现容量组件内、组件间容量水位不均衡问题,为容量优化提供依据。 㺂ꆀ盗椚⟟⧩-兰腊㺂ꆀ곫崵雮㺂ꆀ盗椚刿➢㺂 ♸넞吥ざ⡲Ⱏ灇兰腊⻊곫崵皾岁 模型输出层 预测模型结构 数据输入层 下 一 交 易 日 每 分 钟 tps 预 测 结 果 综合tps 归一化 高频序列 高频输出 高频CNN模型 查询tps 小波分解 交易tps 归一化 低频序列 低频输出 序列重构 低频RNN模型 㺂ꆀ盗椚⟟⧩-兰腊㺂ꆀ곫崵雮㺂ꆀ盗椚刿➢㺂 单日tps最大值预测模型,在测试数据上的平均百分比误差(mape)为7.25% 㺂ꆀ盗椚⟟⧩-㛇炄餴彂ⵄ欽桧Ⰼ㽷䱍䱽 㺂ꆀ盗椚⟟⧩-剣佪곫险ㄤ⻊鍒㺂ꆀ굥ꤗ ꅾ挿劼厷ծꅾ挿劼䨻㺂ꆀ錠㕃 剣佪䎾㼆鵛劍瑲〄遤䞔Ȿⴁկ 劥䎃䏞稡雦곫险ㄤ⻊鍒39⚡㺂ꆀ굥ꤗ挿 㺂ꆀ盗椚⟟⧩-ⵄ欽桧紤랱嚸 全量重点系统进行多层级指标覆盖的精细化容量管理,以红黑榜形式推进优化。 04 F♸IN禹O絡P珘S㾝㹁劅䚍⥂ꥻ 劢勻㾝劅-⟄腊⸂䧭擿䏞⚹⿬罌嶍⿺刿㢴FinOps곭㚖 ⟱⚌IT㛇炄餴彂鵘蠒䧭擿䏞垷㘗 腊⸂㽻 곫皾盗椚椚 ❜➰盗䔶椚 㺂ꆀ盗ⴢ椚 䧭劥盗㻋椚 鵘蠒盗椚 곫皾雦ⴢ ꅷ餝盗椚 㺂ꆀ港䱽 䧭劥ⴔ區 餴彂」刿盗椚 곫皾䪄遤ⴔ區 䎽㶸盗椚 㺂ꆀⴔ區 䧭劥⠏⻊ 絆絉䒊霃 餴彂❜➰ 餴彂⠏⻊ 䧭劥呍皾 鵘蠒ⴔ區 㺂拇盗椚 侨研㽻 侨研盗椚 佅丒㽻 IT餴彂鵘蠒禹絡ㄤ䊨Ⱘ 餴彂㽻 猙剣✻/Ⱆ剣✻ ⚺劼 緸絞 㶸⪰ 侨研䎽 ... 的有效 数据驱动的系统稳定性保障体系落地实践 数据驱动的系统稳定性保障体系 开发阶段稳定性保障(原生性) 系统设计上线评审持续运营运行治理 监控告警 事件管理 高可用管理 业务连续性 十大能力域 软件交付 变更管理配置管理 容量成本 合规风控质效反馈 三类场景能力 事前,全景观测,先知先觉事中,快速响应,精准定界事后,复盘优化,经验沉淀 实 标准编制:2023年7月24日推出了《国泰君安证券数据中心技术运营标准》,作为国内首个根据中国信通院DevOps标 君巡智检平台旨在通过建立一套科学、高效的系统稳定性保障能力自动化评估办法,分解影响业务连续性因素节点,量化评估节点性或运作质量,通过可量化指标及工作流程机制驱动组织能力、流程协同机制、工具的完善,提升业务连续性。 ⴯倝餻腊涸DevOps䪮助鵘蠒䊨Ⱘˋˋば䊢兰唬䎂〵 技术运营阶段稳定性保障(维护性) 准自主开发的内部企业标准,已经过中国信通院官方的评审, 由国泰君安与专家团队合作制定。该标准包括了数据中心技术运营的多个方面,为稳定性分析打下了坚实的基础。 发展动态:2024年7月24日我司重磅发布君巡智检平台,通过多元化数据整合、可视化调度编排、独创式可量化评估指标体系,将运维标准化与效能度量深度融合,实现了运维管理平台之间的互联互通,促进了运维质量和效能的不断提升。 健康时 巡检拨 测 全面告警应急自动监控触达协调处置 复盘预案模型 分析完善加强 工具平台底座 监控平台 自动化管控 配置管理平台 数据开发平台 容量管理 混沌工程 智能运维AIOps系统与工具+FinOps平台工具能力 感谢聆听!Thanksforlistening!

你可能感兴趣

hot

江正煜-多云融合下的IT资源管理体系建设实践

公用事业
2024 第22届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 深圳站2024-05-13
hot

白璐-降本增效:企业 IT 资源精细化管理实践路径

基础化工
2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站2024-07-17
hot

曹立江-中国联通超大规模 IT 系统下稳定性保障能力落地实践

信息技术
2024 第23届 GOPS 全球运维大会暨 XOps 技术创新峰会 · 北京站2024-07-17