行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

7 微众银行-从探索到赋能：微众银行携手StarRocks 重塑数据分析

金融 2024-12-17 StarRocks 2024 年度技术峰会福肺尖

微众银行大数据平台套件与StarRocks应用实践

背景与痛点

当前行内业务方存在用户画像、人群圈选、BI交互看板、用户行为分析等大数据量场景的分析需求。现有计算引擎在处理这些场景时存在以下痛点：

BI交互看板在大数据量下计算速度缓慢；
对较长历史周期的用户行为数据分析效率低下；
运营分析中查询频次较高的热数据无法使用预聚合提速；
查询无法同时满足高灵活性、大数据量、多维度、高时效性等多样化要求。

由于现有引擎无法满足大数据量级下秒级响应速度和数据时效性要求，需引入高性能OLAP计算引擎StarRocks填补空白。

StarRocks引擎引入计划

为什么选择StarRocks：

StarRocks在数据存储、湖仓一体化建设和运维功能方面更贴近行内使用场景，提供更丰富的OLAP能力，提升开发和运维效率；
行内用户主要使用场景为查询HIVE外表，切换至StarRocks对日常查数效率有显著提升，且支持主流JDBC协议，用户语法切换难度小。

StarRocks集群架构设计：

实现同城跨IDC高可用：支持不同IDC内的BE节点配置tag，数据副本均衡分布；
集群稳定性：通过机架标签和资源隔离策略确保数据分布可靠性；
负载均衡：使用VIP/Nginx实现高可用；
集群管理与监控：使用Manager进行日常运维，Prometheus进行监控。

StarRocks在行内业务场景的落地

数据同步支持：

对接Exchangis（微众银行自研数据交换平台），支持多种数据源互导、跨集群导数、权限管理等；
支持StreamLoad方式写入内表，配置字段映射、压缩算法等。

大数据生态集成：

Linkis：集成StarRocks数据源管理能力，支持JDBC方式使用；
DSS Scriptis：支持SQL语句编辑、脚本开发、工作空间管理、UDF函数管理；
Copilot：提供自然语言辅助编程、作业故障优化、SQL语法转换、指标预定义功能；
DSS工作流：支持StarRocks相关数据开发，支持网状顺序执行、版本管理、多人协同编辑。

未来规划方向与展望

完善StarRocks在行内大数据生态的应用：
- 接入数据质量管理服务Qualitis，支持数据质量检视；
- 接入元数据中间件DataShapis，支持元数据管理和关联分析；
- 行内推广使用，覆盖更多场景如风险控制、客户画像等。
部署架构演进：
- 推进容器化部署，降低运维成本；
- 采用云原生部署方式，实现动态扩缩容和资源最大化使用。

关键数据：

WeDataSphere累计试用中/上生产公司达700+家，社区用户总数达5000+人；
用户覆盖电信、金融、互联网、制造、零售、教育等各行各业；
政府用户案例含深圳市金融局&银监局、交通部信息中心、航天八院等。

林俊锋微众银行大数据工程师，StarRocks平台负责人微众银行大数据平台套件 •一站式、全连通、金融级的数据应用开发管理套件•独特中间件层设计，简化整体架构，提升连通性、复用性、可扩展性和治理管控能力•解耦上层应用程序和底层引擎，简化新组件引入，降低开发运维成本 WeDataSphere –开源开放 •累计试用中/上生产公司达700+家，社区微信+QQ群用户总数达5000+人 •用户覆盖电信、金融、互联网、制造、零售、教育等各行各业，典型用户如电信天翼云、平安保险、交通银行、Boss直聘、蔚来汽车、华中科技大学国家高性能计算中心等 •政府用户案例含深圳市金融局&银监局、交通部信息中心、航天八院等 OLAP选型与StarRocks引入过程 StarRocks在行内大数据生态的应用 StarRocks在行内业务场景的落地未来规划方向与展望背景与痛点当前行内业务方有用户画像、人群圈选、BI交互看板、用户行为分析等大数据量场景的分析需求。业务方使用行内现有的计算引擎在上述分析场景下存在如下痛点问题： 1.BI交互看板在大数据量下的计算速度缓慢。 2.对较长历史周期的用户行为数据分析效率低下。 3.运营分析中查询频次较高的热数据无法使用预聚合提速。 4.查询无法同时满足高灵活性、大数据量、多维度、高时效性等多样化要求。基于以上痛点，在现有的计算引擎下无法满足大数据量级下秒级响应速度和数据时效性的要求，因此需要引入新的高性能的OLAP计算引擎StarRocks来填补此处空白。 StarRocks引擎引入计划为什么选择StarRocks Trino VS StarRocks 查询HIVE外表场景下StarRocks和Trino的性能对比 •StarRocks在数据存储、湖仓一体化建设和运维功能方面相比Trino更贴近行内的使用场景，提供更丰富的OLAP能力，对开发和运维效率有提升•行内用户主要使用场景为查询HIVE外表，Trino切换至StarRocks对用户的日常查数效率会有很大提升，且支持主流JDBC协议，用户语法切换难度小 •实现同城跨IDC高可用：支持对不同IDC内的BE节点配置不同的tag，数据副本将根据tag均衡分布到3个IDC内的BE节点•集群稳定性：通过为BE节点添加机架标签，通过机架感知策略确保数据在相同机架节点下的均匀分布，提高数据访问的可靠性。对于同部门下的不同业务组，也通过TAG标签来实现资源隔离，通过事先预审避免资源和性能的相互影响，确保集群稳定性•负载均衡：使用VIP/Nginx作为负载均衡，单个FE节点不可用时不会影响到上游应用•集群管理与监控：使用Manager用于集群管理、异常定位与日志查看等日常运维，将集群各指标信息上报到Prometheus用于日常监控 StarRocks在行内业务场景的落地 02 •对接批量同步与实时同步工具，满足行内系统对接方式与分析计算方式 •将StarRocks结合行内多个大数据工具支持多个业务场景使用•满足5+部门的10+应用场景选择接入StarRocks引擎 •支持接入StarRocks时的事前评估、事中协调与事后审计的完备申请与审批流程 Exchangis数据同步支持StarRocks Exchangis是微众银行自研的轻量级、高性能的数据交换平台，支持对多种结构化和非结构化的异构数据源之间进行数据传输，目前维护了开源版和行内版的多个版本（Github地址：https://github.com/WeBankFinTech/Exchangis） •数据源与引擎抽象：屏蔽各数据源的差异性，支持StarRocks与多种数据源的互导•跨集群导数：集群管理与跨集群、跨环境和跨网络的数据导数能力，满足用户的跨集群用数需求，屏蔽了复杂网络环境的影响•导数方式多样化：针对不同用户群体的用法，兼顾科技侧与业务侧用户•过程可控制：通过StreamLoad方式写入内表，并支持字段映射、模式选择、部分列更新、压缩算法、批量大小和脏数据阈值等配置•权限管理：允许同时隔离使用多份用户凭证或变量，实现跨集群同步场景下用户权限操作和数据共享 StarRocks在行内大数据生态的应用 03 Linkis支持对接StarRocks •集成对StarRocks数据源管理能力，支持集群信息管理、连接信息管理•支持JDBC方式使用StarRocks数据源，并支持Catalog预指定、超时管理等功能•支持数据源的版本管理、发布、回滚和过期等功能•在多个类型的工作流节点中支持使用数据源 DSS Scriptis支持StarRocks进行数据分析 •脚本开发：提供了丰富的IDE能力，用户可在IDE中编辑SQL语句，支持对接多种类型脚本。实时查看运行过程，并在结果区中查看结果数据集，以及查看日志的功能•工作空间管理：支持树型目录结构的文件管理模式，支持多部门、多用户对自定义的数据开发脚本文件的管理 •用户函数管理：提供UDF函数管理模块，支持用户自定义上传脚本，丰富了更多SQL使用场景 •HIVE数据库管理：支持对Hive库表的查询和管理，丰富了StarRocks对Hivecatalog的使用场景 •实时进度管理：实时展示SQL运行进度与日志信息 Copilot赋能StarRocks辅助编程 •自然语言辅助编程：提升编程效率，使用户能更专注于业务逻辑上•作业故障优化：结合大模型知识库对异常进行定位，并结合知识库给出解决方案 •SQL语法转换：支持用户从其他引擎如Hive或Spark迁移到StarRocks进行数据分析•指标预定义：根据预先录入的知识库，支持根据指标信息给出对应的SQL DSS工作流支持StarRocks相关数据工作流 •多个节点支持了StarRocks相关数据开发，并支持网状顺序执行，如使用datax导数节点作为工作流节点之一，为后续的工作流节点提供数据基础；使用jdbc节点进行数据分析，为后续的报表提供数据结果•支持以拖拉拽的形式开发工作流，并具有版本管理、节点调试、自定义资源和配置、导入导出和节点调度等功能•支持多人协同编辑开发同一个工作流，并通过用户锁来控制并发未来规划方向与展望 04 1、完善StarRocks在行内大数据生态的应用接入行内数据质量管理服务Qualitis：支持对SR中的数据根据规则定义、质量任务配置以及质量结果可视化，对生产重要数据进行质量检视接入大数据平台元数据中间件DataShapis：对SR元数据进行管理，支持用户从元数据视角、产品视角查看元数据，并支持元数据之间的关联分析，提供完整的血缘关系行内推广使用：通过将实时采集数据与离线数据相结合，能够覆盖行内更多场景，如风险控制、客户画像、市场预测分析等 2、部署架构演进当前业内还普遍使用物理机方式部署，对于大规模的容器化部署稳定性还需进一步验证若采用云原生部署方式，能够降低运维成本，并通过云原生的动态扩缩容能力进行资源最大化使用

点击免费查看完整报告

7 微众银行-从探索到赋能：微众银行携手StarRocks 重塑数据分析

微众银行大数据平台套件与StarRocks应用实践

背景与痛点

StarRocks引擎引入计划

StarRocks在行内业务场景的落地

未来规划方向与展望

你可能感兴趣

东方电子：从电力自动化到能源信息化，前沿探索赋能新发展

1-4 从探索式数据分析到现代 BI 仪表盘：Superset 2.0

从执行到赋能、从封闭到开放--DevOps下测试能力的构建与应用-王哲

从受众到影响力：借助Sensor Tower受众洞察为移动应用赋能

2024年度中国医生数字生活调研报告——从临床决策到技术赋能，全景观察医生数字生活

AI赋能资产配置（十一）：从算力平权到投研平权

细数AIGC创业者眼中的应用场景，从游戏降本到工具赋能–20230401

首次覆盖报告：从离岸外包到赋能生态

公司动态研究报告：从IP乐园到AI融合，春晚赋能开启新征程

从扩内需犒赏经济行业到AI 赋能应用传媒如何看20251222_导读