您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[网易]:数据开发治理平台 EasyData - 发现报告
当前位置:首页/其他报告/报告详情/

数据开发治理平台 EasyData

2023-11-29网易M***
数据开发治理平台 EasyData

数据开发治理平台EasyData 开发治理一体化平台,实现数据长效治理 2022 PREFACE 前言 网易数帆是网易旗下ToB企业服务品牌,定位于数字化转型技术与服务提供商,依托网易20余年互联网技术积累,推出三大数字生产力模型,帮助企业发展软件生产力、数据生产力、智慧生产力,沉淀企业数字资产,为企业数字化转型提质增效。目前,网易数帆已服务工商银行、兴业银行、华泰证券、东北证券、中信证券、平安产险、格力、OPPO、一汽解放、吉利集团、华能集团、南方电网、浙江电信、德邦快递、九州通、名创优品、科沃斯、温氏集团等300余家行业头部企业。 网易数帆旗下大数据产品线基于十多年数据技术积淀,以全面的技术及产品服务企业“看数”、“管数”、“用数”等业务场景,盘活企业数据生产力,助力企业人人用数据,时时用数据,推动企业数据生产力跃迁,全面释放数据价值。 打造领先数据生产力着力各行业实践深耕 产品技术实力居于国内第一梯队 获评Gartner数据分析代表厂商、数据中台领域标杆厂商、CloudABI领域标杆厂商 头部客户项目经验丰富,多行业两百余家客户成熟验证 获信通院大数据产品能力评测等100余项权威荣誉 拥有大数据技术授权专利40余项 目录 平台概述 数据开发 数据治理 数据服务 案例实践 荣誉资质 元数据采集云数据注册 元数据扫描元数据发布 数据目录数据检索 资产门户数据血缘 数据开发治理平台EasyData EasyData是网易数帆基于数据生产力方法论打造的一站式数据开发治理平台,在业内首先提出并实现开发治理一体化。强调可持续集成、可持续交付、可持续部署的DataOps数据开发能力,提供数据集成、数据开发、任务运维等产品。结合包括元数据管理、数据标准、指标系统、数据建模等在内的DataFusion数据治理能力,聚焦企业数字化转型,深挖数据价值,提升企业数据生产力。 数据治理 安全中心 模型设计中心 数据治理360 数据质量中心 指标系统 数据标准 大数据基础平台NDH 数据开发 任务运维中心 实时开发 离线开发 数据传输 数据服务 服务监控 服务权限 服务编排 API发布 数据产品 数据大屏 决策引擎 可视化报表 数据门户 架构图 数据元数据字典 数据分类标准发布 数据资产地图 原子派生版本管理 指标字典指标关联 稽核监控质量报告 强弱规则质量工单 价值分析成本分析 量化ROI数据下线 维度建模量化评估 规范设计发布审核 数据脱敏安全登记 敏感识别权限申请 八大核心亮点 01 02 基于DataOps的数据开发底座 数据开发基于DataOps打造的开发流水线,将数据开发划分成编码、编排、测试、代码审查、发布审核、部署上线六个阶段,通过不断的持续集成、持续交付、持续部署,满足敏捷交付的情况下,确保数据的高质量的产出。 逻辑数据湖,打破数据孤岛 构建“物理分散,逻辑统一”的数据中台体系,解决企业数据孤岛问题,将企业散落在各个子数据系统中的数据统一管控起来。 03 面向数据中台的数据建模,解决烟囱式数据开发 构建业界首个面向数据中台的模型设计度量标准,让企业更好地了解自身中台的搭建情况,避免烟囱式地开发模式,提升需求交付效率、减少数据查询时间。 04 开发与治理一体化,数据可持续治理 将数据开发和数据治理相结合,通过数据标准对整体开发流程中多个子产品模块进行把控,在关键卡点设置审批流程,保障在开发过程中对数据进行可持续化的治理。 八大核心亮点 05 06 元数据管理,打造规范的数据体系 元数据管理系统可对业务元数据、技术元数据、管理元数据进行统一的采集、注册和发布。同时,将元数据和标准、质量、安全、模型等子产品进行打通,丰富元数据内容的同时,方便数据资产消费者更好的了解数据。 基于ROI模型的数据价值分析,沉淀企业资产 通过对存储和计算资源的深入盘点,帮助企业了解当前资产的利用情况以及资源成本;通过数据资产的360,从6个维度了解资产的健康程度,关注资产每日的健康变化。基于ROI的数据资产实践,能够帮助企业发现有价值的数据,将数据真正转化为企业的资产。 07 一站式自助数据服务,解决数据服务的开发、共享问题 一站式自助数据服务功能,通过可视化配置方式生成API,降低使用人员门槛;通过权限、熔断、限流等技术保障数据安全的同时,能够使不同应用可以共享API,解决了API开发效率低、交付周期长、复用性差等问题。 08 与有数BI全链路协同,数据中台业务价值最大化变现 指标/模型“端到端”统一,开箱即用,消除数据二义性,提高看数用数、数据辅助决策的效率和质量;通过数据中台实现BI产品的数据智能缓存,高峰期秒级看报表;全链智能运维,自动检测下游报表影响范围,帮助数据审批提质增效。 数据开发 基于数据生产力方法论DataOps,EasyData强调可持续集成、可持续交付、可持续部署,融合了数据集成、数据开发、数据测试、任务运维一整套数据研发体系,旨在帮助数据开发人员能够在保证开发质量的同时更高效的完成数据开发工作。 数据传输(离线/实时) 离线开发 实时开发 任务运维中心 数据传输(离线) 用于多种异构数据源之间的数据交换,可实现各部门业务数据在应用层面的互联互通和信息共享。数据传输采用分布式的架构,可以从容应对大数据量的数据传输需求。 架构图 NoSQL 流量控制 大数据存储 脏流量控制 大数据存储 特殊字符替换 本地文件EXCEL/CSV/TXT/LOG 消息队列 来源表结构变更策略 消息队列 半结构化存储 数据脱敏 半结构化存储 NoSQL 关系型数据库 并发 关系型数据库 数据去向 渠道策略 数据来源 功能亮点 插件化扩展机制,支持丰富的异构数据源 数据传输使用插件化扩展机制,对新的数据源具备强大的扩展能力,目前已支持涵盖关系型数据库、大数据存储、半结构化存储、NoSQL、消息队列类型的20+种数据源的读写任意组合。 产品化解决方案,支持多种数据传输经典场景 针对增量抽取、分库分表、整库同步、数据脱敏等经典场景均提供了解决方案,通过简单的界面配置即可完成复杂的数据传输过程。 权限管控,支持多重安全管控策略 用户使用数据、配置相关的传输任务都需要获取相应的权限后才能操作。开发与生产环境隔离,用户对开发环境任务的变更不影响线上任务的正常运行。 高性能,最大化提高传输效率 数据传输底层采用Spark计算框架,可以充分利用集群资源横向扩展并行度,轻松面对海量数据场景。 产品效果 使用前 VS使用后 兼容性差,配置复杂 基于Sqoop的离线同步任务,存在开发新数据源难度高、任务配置需要添加的参数多、难以封装等问题,无法高效响应企业需求。 性能提升,可扩展性强 基于spark的数据同步任务相较于Sqoop资源消耗更少,运行同样数量的任务,只需要耗时一半的时间,性能提升50%。此外,离线传输使用spark作为底层计算引擎提供插件式数据源接入,具有良好的扩展性。 相同参数,重复配置 分库分表批量抽取场景:企业各地分公司的业务数据会按照公司的统一格式存储在各自独立的业务系统,并定期导入总公司指定的数据库用于后续经营分析。各分公司的业务数据库的数据特征为:数据源类型相同、ip不同、库表名称符合特定规律、表结构一致。在此场景下,如果需要抽取各分公司表结构相同的业务表时,需要重复创建几百个仅数据源名称不同的传输任务,极大影响了开发人员的开发效率。 模板任务,一次搞定 针对此类场景抽象出了模板任务的产品化解决方案,使用参数表示实体信息,构建模板任务,只需配置一次即可满足业务需求,避免开发人员重复工作和高维护成本。 数据传输 (实时) 作为EasyData的基础模块,提供高效稳定的数据实时同步能力。基于FlinkCDC插件二次开发,能够实时捕获数据变更,并将复杂的配置逻辑封装为简单直白的向导式操作界面,降低开发成本,支持单表对单表、多表对单表、多表对多表的实时同步应用场景。 架构图 ReadChangeLog 数据湖 Iceberg Arcticv 消息队列 Kafka 关系型数据库MySQL Oracle SQLServer 数据去向 来源表结构变更感知 自定义表达式转化 脏数据处理 字段映射 流量控制 并发 通道策略 消息队列 Kafka 关系型数据库 DB2 PostgreSQL SQLServer Oracle MySQL 数据来源 功能亮点 基于FlinkCDC插件二次开发,支持丰富数据源的实时同步 实时数据传输基于FlinkCDC插件二次开发,使用插件化扩展机制,对新的数据源具备强大的扩展能力,目前已支持涵盖关系型数据库、消息队列等多种数据源的读写任意组合。 位点灵活,自定义启停时间 深度集成多种Offset策略,通过参数配置可实现基于时间或文件选择不同位点进行采集,灵活多变。 自动匹配,一键数据全入湖 源端实现采集、解析源表DDL,自动与目标Kafka的逻辑表自动进行字段映射与匹配,省去手动配置的繁琐步骤,实现一键数据入湖。 支持全量初始化采集方式,无需额外配置任务采集历史全量数据 持全量初始化采集方式,先采集历史全量数据之后自动开始采集增量数据,无需额外配置全量采集任务。 产品效果 使用前VS 使用后 采集工具缺少系统性,难运维管理 大量原始数据堆积在业务系统底层,不同数据库类型采集插件配置自成体系,缺少统一运维、管理的手段。 统一插件框架,图形化界面,易运维管理 采用FlinkCDC插件在整个Flink引擎下实现对主流数据库的采集,统一插件设计框架,参数配置简单易懂。平台封装图形化界面,降低上手门槛,实现统一运维管理。 重复配置,效率低 同样的CRM、ERP系统数据分布在不同数据中心,同样的采集任务需要反复配置,手动操作工作量大。 配置自动化,提升作业开发效率 功能层面支持多对一、多对多采集配置,一键选表,自动完成字段映射,大大节省采集任务开发配置的工作量。 无数据过滤索引的大表全量采集耗时长,数据库抽取压力大 部分业务表每天都会产生大量新数据和历史变更数据,每天需要同步更新后数据,且表不存在数据过滤索引。如果每天使用离线传输全量同步存在两个问题:1.耗时长,2.对源库性能压力大。 实时捕获数据变更,采集更高效,数据库压力有效降低实时传输基于FlinkCDC插件进行二次开发,能够实时捕获新增、删除和更新的数据,在保障数据端到端一致性的 基础上,既提升了传输效率,也降低了对源库的压力。 离线开发 作为EasyData的基础模块,离线开发提供大规模数据存储与计算能力,可选择搭载其它产品完成数据集成、数据研发、数据治理、数据服务等功能,灵活满足客户的各类场景。 作业管理 Projrct FlowJob MPP Hadoop HTAP RDMS 基础组件 阐述数据订阅 IDE 上线管控 上线审批 强制测试 上线检测 影响监测 调度管理 依赖配置 多版本管理 报警配置 调度配置 多版本管理 ES Vertica MR 线上模式 开发模式 调度系统 架构图 数据同步 SQL AI Script Spark MySQL Greenplum Oracle 选择节点 嵌套流 虚拟节点 丰富的节点类型,逻辑节点无缝连接 支持多种数据源类型的SQL,可通过Mysql、GP、Oracle、Vertica等逻辑数据湖节点为逻辑入湖数据提供开发和调度,同时支持spark、hive、script、数据传输等多种任务类型。 强大的调度功能,支持多种调度模式 支持多模型的调度设置,支持周期、crontab、以及自定义交易日历的调度模式;支持任务、节点之间的跨流依赖,支持任务串行、并行、自依赖等调度实例并发逻辑,适配不同数据产出迭代逻辑。 功能亮点 完善的发布管控,对关键节点设置审批流程 结合DataOps方法论打造大数据