您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[网易]:浙江电信大数据运营实践探索 - 发现报告
当前位置:首页/其他报告/报告详情/

浙江电信大数据运营实践探索

2023-03-09网易艳***
浙江电信大数据运营实践探索

2022数字+大会 浙江电信数据中台实践探索 主讲人:梁建斌浙江电信大数据专家 目录 CONTENTS 数据管理现状 2022数字+大会 数据中台建设规划数据中台实施 2022网易数字+大会 2022网易数字+大会 2022数字+大会 数据管理现状 浙江电信大数据平台现状 2022网易数字+大会 5000 60+ 应用产品 业务指标 计算节点1 ExecutionEngine NameNode1 计算节点2 ExecutionEngine 计算节点3 ExecutionEngine NameNode2 计算节点4 集群类型:Hadoop(122台)集团名称:网络前置预处理平台 应用:汇聚DPI、MR/CDR网络数据,进行数据预处理后,上传至集团内蒙大数据平台。 杭州建德 1.集群类型:Hadoop集团名称:经分集群 应用:跨域业务分析,除网络外应用 2.集群类型:MPP核心应用集群集团名称:主应用集群 应用:汇聚核心业务数据,用于支撑省公司核心经营数据分析任务。 3.集群类型:MPP综合应用集群集团名称:本地应用集群 应用:VerticaEON计算存储分离架构模式,分公司、 业务部门、数据内部团队应用。 绍兴柯桥 ExecutionEngine 作业调度 流式计算 分布式存储HDFS(Storage) VerticaMPP集群(2套) 2022数字+大会 核心应用集群综合应用集群 •节点:27 18.5万/S 7万 •容量:120T •作业:1万 •节点:84 •容量:1.9PB •作业:2.8万 表模型 画像标签 集群监控 分布式资源管理YARN 数据仓库工具Hive 分布式数据库HBase 集群资源管理 集群类型:Hadoop集团名称:网络集群 应用:基于华为FusionStorage的Hadoop计算存储分离架构,承载DPI、信令、MR/CDR等网络数据的分析与应用。 金华罗店工业园 1200 3万 Hadoop集群(2套) 经分集群网络集群 •节点:416 •容量:6PB •作业:3.3万 •节点:600 •容量:12PB •作业:2000 浙江电信大数据平台运营管理问题 多厂家、工具分散 调度工具 供应商A 多部门,烟囱林立 IT中心 分公司 2022网易数字+大会 数据血缘 开发工具 2022数字+大会 质量管理主数据管理 元数据管理 供应商B供应商C供应商D供应商E •CRM:一套Oralce数据库 •计费:20台Hvie库,一套Oracle数据库 •10000号:一套Oracle数据库 •OSS:一套Oracle数据库 网运中心 •杭州:oracle,1T •宁波:oracle,12T •温州:oracle,30T •嘉兴:oracle,0.5T •湖州:oracle,6.5T •绍兴:oracle,24T •金华:oracle,0.5T 供应商A MPP调度上传集团BSS数据 供应商B 智慧人力业务稽核万号数据 供应E 数据标签精准营销MSS数据 供应商D 政企应用星级维系资产落地 供应商E 网络数据网管采集 …… •5G支撑系统:系统Hadoop规模50台, •数据分析系统:三套oracle。 •能耗系统:一套oracle,数据规模2TB •衢州:oracle,1T •丽水:oracle,9T •台州:oracle,15T •舟山:oracle,5T 问题一:生产效率低下 •生产效率低:开发、调度、监控、治理要在不同的工具操作,流程断档。 •数据共享效率低:数据共享效率低,需要多平台之间实现传输。 •数据冗余度高:多系统存相同数据。 问题二:系统治理缺乏抓手 •防护策略覆盖系统上升:数据库访问审计、数据脱敏、分等分级管理等需要各系统逐个落实。 •数据出口不可控:数据提取、导出难以管理,检查难度较多。 问题三:数据安全管理复杂度上升 •资源管理难:多套调度各自提交任务,作业发布处于失控状态。 •数据治理难:数据标准难以落地,数据目录、元数据管理和生产脱节。 生产使用难治理难风险高 浙江电信数据中台总体建设思路2022网易数字+大会 速度“快” 使用“易” 平台运营能力 管控“严” OneID跨域模型 统一标签库 统一指标库 通用数据服务层 数据开放工具 数据安 全 数据脱敏 指标管理 报表开发 数字卡片 自助分析 数据探索 数据挖掘 大屏开发 报表门户 服务层数据管理 标签管理接口管理 标准化资产化服务化 数据治理能力 统一基础平台:以上云为目标推进基础平台算力提升,支撑规模应用和实时应用。 统一开发平台:以统一开发运营一体化平台推进生产流程标准化,提升作业质量。 统一开放服务:实现服务统一安全接入,加强服务运营支撑,提升应用开发效率。 汇总层中间层整合层接口层 基础层数据模型 集团 BSS 分布式关系数据库 实时流处理框架 网管 网络 MSS OSS … … 外部 线上 万号 存贮和计算中心 MPP集群 数据治理中心 统一调度 实时开发 数离 仓线 设开 计发 数据质量 数据资产 数据开发中心 集群监控 元数据 监控中心 统一数据入湖:以资产盘点结果为参考,价值优先原则推进全域数据入湖。 日志审计 2022数字+大会 统一企业指标:统一口径,统一服务,提升经营管理的数据统一性。 权限管控 统一跨域模型:以OneID的体系治理和关联各域的数据能力,推进要素数字化。 AI 前置预处理平台 调度运维 Hadoop集群 统一标签体系:打通跨域数据为基础,实现标签模型统一服务。 自主运营 效能指标 开放赋能 数据平台团队数据管理团队 作业效能公共模型 开发效率数据质量 业务培训技能培训 数据服务团队实时能力 需求响应 调研反馈 浙江电信数据中台建设目标2022网易数字+大会 目标:通过数据采集、建模、开发、治理、分析一体化能力,为数据资产管理标准化提供平台基础,有效提升数据交付质量和效率。 引入成熟的数据中台产品 赋能公司数字化转型过程中对数据资产管理、数据交付能力方面的要求。 配套相关的管理规范 通过咨询服务,规范数据治理、数据采集、数据开发、数据服务、数据安全等方面的管理要求,适配数据中台运营流程的规范化。 让业务人员由需求者成为生产者 敏捷的数据响应能力,支撑模式从“保姆”模式到“服务+自助”模式,业务部门可以根据需要构建灵活的自助分析场景,极大缩短数据分析消费周期。 让数据开发人员没有难找的数据 所有数据从业人员围绕数据中台进行开发和运维,持续完善数据资产和数据质量运营,提升数据共享能力。 开发效率提升 2022数字+大会 •报表开发效率提升50%倍 •可视化数据应用页面开发效率提升1倍 数据自助分析能力 •前各部门都实现自助数据分析及开发的能力,自助模式占所有取数分析工作的比例到30%,释放分公司数据开发人员的低效劳动。培养200个自助分析的业务人员。 长期运营目标 •通过数据中台能力提升,割接本地网部署的数据集市和数据平台,改变省内当前”1+N“的模式,进一步提升作业效率和数据安全。 2022网易数字+大会 2022数字+大会 数据重点建设规划 浙江电信数据中台功能规划(2021年已建设)2022网易数字+大会 Web化的一站式数据开发平台,支持异构数据库的访问,核心功能包括: •数据传输:跨异构数据库的数据交换配置 •离线开发:基于Hive、MPP等各类数据库的开发 •流式开发:Flink组件的开发、调试 2022数字+大会 •质量管理:配置数据结果的各类稽核规则 •调度管理:定时、依赖等模式的作业调度配置 Web化的报表开发平台,支持可视化数据报告的低代码开发,核心功能包括: •表单开发:PC\APP报表的开发发布,嵌入其他服务门户 •可视化开发:PC\APP的可视化数据页面开发,含大屏模式 •API服务封装:指标、标签、宽表、报表等结果的接口封装 中台开发运营组件BI开发组件 EasyStream (实时开发中心) EasyDev (离线开发中心) EasyTransfer (数据集成中心)EasyDQC (数据质量中心) EasyAssets (数据资产中心)EasyDS (数据服务) EasyDMap (数据地图) EasyDesign (模型设计中心) EasyIndex (指标系统) EasyTaskOps (任务运维中心) EasyFill (数据填报) EasyBI (可视化分析) EasyMobile(移动端) EasyDecision(智能决策) EasyReporter(复杂报表) EasyScreen(可视化大屏) EasyDPStudio(数据门户) EasyFetch(自助取数) 浙江电信数据中台功能规划(2022年新建设功能模块)2022网易数字+大会 AI开发运营中心安全中心 权限申请 •支持用户为当前用户、他人及项目账号进行数据权限申请,支持申请库、表读写等权限,并支持权限到期日期配置,工单查看。 权限管理 2022数字+大会 •查看当前用户所拥有的数据权限,可进行申请续权和释放权限操作 操作审计 •支持审计用户在猛犸产品(所有子产品)内的所有操作日志,并即将支持配置风险行为审计/告警规则 安全管理 •支持组户级和项目级角色成员管理、各类权限管理、权限相关配置、数据安全等级配置、权限治理 脱敏管理 •数据敏感类型定义和发现,支持多种脱敏算法和脱敏规则灵活配置。支持传输过程中的静态脱敏;支持数据地图、自助分析等即席查询场景下的动态脱敏。 2022网易数字+大会 2022数字+大会 数据中台实施 …… 数据中台部署实施2022网易数字+大会 数据中台 MammutExecutor 数据 Az HadoopMeta-web 中 台部署 Az BDMS Meta MammutWeb 2022数字+大会 WebMAz-FCAz Executor WebAz 实 施 M AzWeb AzExecutor M Az-FC Az-FC Executor Vertica集群 HDFS Datashards Depot Depot Depot VerticaEON VerticaEON VerticaEON CDH集群 HDFS Yarn Spark Hive Hadoop-Meta-Scheduler Hadoop-Meta-kdc CDH集群 HDFS Yarn Spark Hive Hadoop-Meta-Scheduler Hadoop-Meta-kdc 大数据集群 构建一站式数据开发运营模式2022网易数字+大会 以中台集约数据开发推动数据作业五统一:统一入湖、统一开发、统一调度、统一治理、统一开放,提升数据交付效率和共享能力。 关键举措以中台BI可视化工具提升交付品质 2022数字+大会 •统一入湖:打破部门壁垒,企业数据统一汇聚到大数据平台,通过中台的权限隔离,实现数据分域管理。 •统一开发:关闭客户端直联数据库的开发工具,数据地图查询、业务数据查询、数据建模、脚本开发都通过中台工具实现,建立数据操作详细审计能力。 •统一调度:下线多套主要调度平台,所有调度统一至任务调度中心,实现7万个作业的统一调度,按项目隔离权限。 •统一治理:以谁开发谁负责的原则,用中台工具推动元数据维护、质量稽核要求落地,提升数据质量。 •统一开放:以BISaas化应用和API服务为主要模式建立数据统一出口,实现数据不出平台。 以中台开发运营平台固化数据治理理念 数据资产管理标准化2022网易数字+大会 统一企业数据目录 •数据目录统一规划,分贴源层按部门系统、数仓层按主题域、应用层按专题。 统一元数据标准 2022数字+大会 •表命名规范、字段命名规范、字段名称、业务定义、业务解释、技术定义、枚举值说