
开发治理一体化平台,实现数据长效治理 PREFACE 网易数帆是网易旗下ToB企业服务品牌,定位于数字化转型技术与服务提供商,依托网易20余年互联网技术积累,推出三大数字生产力模型,帮助企业发展软件生产力、数据生产力、智慧生产力,沉淀企业数字资产,为企业数字化转型提质增效。目前,网易数帆 已 服 务 工 商 银 行 、 兴 业 银 行 、 华 泰 证 券 、 东 北 证 券 、 中 信 证 券 、 平 安 产 险 、 格力、OPPO、一汽解放、吉利集团、华能集团、南方电网、浙江电信、德邦快递、九州通、名创优品、科沃斯、温氏集团等300余家行业头部企业。 网易数帆旗下大数据产品线基于十多年数据技术积淀,以全面的技术及产品服务企业“看数”、“管数”、“用数”等业务场景,盘活企业数据生产力,助力企业人人用数据,时时用数据,推动企业数据生产力跃迁,全面释放数据价值。 打造领先数据生产力着力各行业实践深耕 产品技术实力居于国内第一梯队 获评Gartner数据分析代表厂商、数据中台领域标杆厂商、Cloud ABI领域标杆厂商 头部客户项目经验丰富,多行业两百余家客户成熟验证 获信通院大数据产品能力评测等100余项权威荣誉 拥有大数据技术授权专利40余项 目录 数据开发治理平台 EasyData EasyData是网易数帆基于数据生产力方法论打造的一站式数据开发治理平台,在业内首先提出并实现开发治理一体化。强调可持续集成、可持续交付、可持续部署的DataOps数据开发能力,提供数据集成、数据开发、任务运维等产品。结合包括元数据管理、数据标准、指标系统、数据建模等在内的DataFusion数据治理能力,聚焦企业数字化转型,深挖数据价值,提升企业数据生产力。 架构图 八大核心亮点 基于DataOps的数据开发底座 逻辑数据湖,打破数据孤岛 数据开发基于DataOps打造的开发流水线,将数据开发划分成编码、编排、测试、代码审查、发布审核、部署上线六个阶段,通过不断的持续集成、持续交付、持续部署,满足敏捷交付的情况下,确保数据的高质量的产出。 构建“物理分散,逻辑统一”的数据中台体系,解决企业数据孤岛问题,将企业散落在各个子数据系统中的数据统一管控起来。 面向数据中台的数据建模,解决烟囱式数据开发 开发与治理一体化,数据可持续治理 构建业界首个面向数据中台的模型设计度量标准,让企业更好地了解自身中台的搭建情况,避免烟囱式地开发模式,提升需求交付效率、减少数据查询时间。 将数据开发和数据治理相结合,通过数据标准对整体开发流程中多个子产品模块进行把控,在关键卡点设置审批流程,保障在开发过程中对数据进行可持续化的治理。 八大核心亮点 元数据管理,打造规范的数据体系 基于ROI模型的数据价值分析,沉淀企业资产 通过对存储和计算资源的深入盘点,帮助企业了解当前资产的利用情况以及资源成本;通过数据资产的360,从6个维度了解资产的健康程度,关注资产每日的健康变化。基于ROI的数据资产实践,能够帮助企业发现有价值的数据,将数据真正转化为企业的资产。 元数据管理系统可对业务元数据、技术元数据、管理元数据进行统一的采集、注册和发布。同时,将元数据和标准、质量、安全、模型等子产品进行打通,丰富元数据内容的同时,方便数据资产消费者更好的了解数据。 与有数BI全链路协同,数据中台业务价值最大化变现 一站式自助数据服务,解决数据服务的开发、共享问题 一站式自助数据服务功能,通过可视化配置方式生成API,降低使用人员门槛;通过权限、熔断、限流等技术保障数据安全的同时,能够使不同应用可以共享API,解决了API开发效率低、交付周期长、复用性差等问题。 指标/模型“端到端”统一,开箱即用,消除数据二义性,提高看数用数、数据辅助决策的效率和质量;通过数据中台实现BI产品的数据智能缓存,高峰期秒级看报表;全链智能运维,自动检测下游报表影响范围,帮助数据审批提质增效。 数据开发数据开发 基于数据生产力方法论DataOps,EasyData强调可持续集成、可持续交付、可持续部署,融合了数据集成、数据开发、数据测试、任务运维一整套数据研发体系,旨在帮助数据开发人员能够在保证开发质量的同时更高效的完成数据开发工作。 数据传输(离线/实时) 离线开发 数据传输(离线) 用于多种异构数据源之间的数据交换,可实现各部门业务数据在应用层面的互联互通和信息共享。数据传输采用分布式的架构,可以从容应对大数据量的数据传输需求。 架构图 功能亮点 插件化扩展机制,支持丰富的异构数据源 数据传输使用插件化扩展机制,对新的数据源具备强大的扩展能力,目前已支持涵盖关系型数据库、大数据存储、半结构化存储、NoSQL、消息队列类型的20+种数据源的读写任意组合。 产品化解决方案,支持多种数据传输经典场景 针对增量抽取、分库分表、整库同步、数据脱敏等经典场景均提供了解决方案,通过简单的界面配置即可完成复杂的数据传输过程。 权限管控,支持多重安全管控策略 用户使用数据、配置相关的传输任务都需要获取相应的权限后才能操作。开发与生产环境隔离,用户对开发环境任务的变更不影响线上任务的正常运行。 高性能,最大化提高传输效率 数据传输底层采用Spark计算框架,可以充分利用集群资源横向扩展并行度,轻松面对海量数据场景。 产品效果 兼容性差,配置复杂 性能提升,可扩展性强 数据传输(实时) 作为EasyData的基础模块,提供高效稳定的数据实时同步能力。基于Flink CDC插件二次开发,能够实时捕获数据变更,并将复杂的配置逻辑封装为简单直白的向导式操作界面,降低开发成本,支持单表对单表、多表对单表、多表对多表的实时同步应用场景。 架构图 功能亮点 基于FlinkCDC插件二次开发,支持丰富数据源的实时同步 实时数据传输基于FlinkCDC插件二次开发,使用插件化扩展机制,对新的数据源具备强大的扩展能力,目前已支持涵盖关系型数据库、消息队列等多种数据源的读写任意组合。 位点灵活,自定义启停时间 深度集成多种Offset策略,通过参数配置可实现基于时间或文件选择不同位点进行采集,灵活多变。 自动匹配,一键数据全入湖 源端实现采集、解析源表DDL,自动与目标Kafka 的逻辑表自动进行字段映射与匹配,省去手动配置的繁琐步骤,实现一键数据入湖。 支持全量初始化采集方式,无需额外配置任务采集历史全量数据 持全量初始化采集方式,先采集历史全量数据之后自动开始采集增量数据,无需额外配置全量采集任务。 产品效果 离线开发 作为EasyData的基础模块,离线开发提供大规模数据存储与计算能力,可选择搭载其它产品完成数据集成、数据研发、数据治理、数据服务等功能,灵活满足客户的各类场景。 架构图 功能亮点 丰富的节点类型,逻辑节点无缝连接 支持多种数据源类型的SQL,可通过Mysql、GP、Oracle、Vertica等逻辑数据湖节点为逻辑入湖数据提供开发和调度,同时支持spark、hive、script、数据传输等多种任务类型。 强大的调度功能,支持多种调度模式 支持多模型的调度设置,支持周期、crontab、以及自定义交易日历的调度模式;支持任务、节点之间的跨流依赖,支持任务串行、并行、自依赖等调度实例并发逻辑,适配不同数据产出迭代逻辑。 完善的发布管控,对关键节点设置审批流程 结合DataOps方法论打造大数据场景的CI/CD DevOps,提供数据测试、配置检查、自助分析、影响审批策略、任务发布等功能,保障数据质量的同时提高了数据开发的效率。 产品效果 实时开发 实时开发是一款由元数据驱动的湖仓一体产品,最低支持亚秒级数据延迟,在保留开源Flink灵活拓展能力的基础上,实现一体化、平台化,显著降低用户使用与日常运维的门槛和成本,实现业务技术完成闭环,还原真实业务诉求,赋能场景提供价值。 架构图 功能亮点 贴合研发习惯,开发高度自由 提供语法自动补全、语法高亮、代码格式化等基础开发辅助和智能语法检查。同时具备本地调试、代码一键回滚、文件/函数引用、自定义运行配置等亮点功能。 元数据驱动贯穿,平台能力逐级提升 通过手动注册流表与数据库获取两种渠道获取元数据,接入统一元数据中心,并提供权限管控、开发引用、血缘分析等能力,实现实时数仓数据关系可视化,管理智能化。 架构保持开放,多内核版本支持 保留Flink开源框架的拓展能力,支持自定义插件拓展,用户可依据框架标准开发Jar包,直接上传至平台进行引用,拓宽使用场景;多引擎内核可选,支持Flink1.10,1.12,1.14等多个主流版本。 100%真实数据模拟,逻辑验证不再复杂 支持基于不同offset策略对数据源端采集线上数据作为数据样本,支持用户对样本数据进行二次编辑以满足更丰富的调试场景;支持通过在线采集、本地上传、选择样本集三种方式获取调试数据,通过对SQL的调试用户可以在不影响实际数据的情况下进行业务逻辑验证,提升开发质量。 以业务为价值导向,摆脱“伪监控” 除了提供基础运维指标外,为避免输入输出QPS等参数看似正常运行,但是实际业务出错的“伪监控”尴尬局面。通过基于Grafana自定义业务指标和丰富告警渠道支持,以实际业务场景为核心打造真正具有业务价值的监控体系。 告警规则丰富,第一时间感知风险 围绕实时业务的真实场景需求,支持QPS输入输出、数据反压、自定义业务指标等告警规则配置,通过多连续周期与自定义周期长度提升告警精准度,还可设置告警间隔与告警时间,避免告警信息带来的骚扰。 产品效果 任务运维中心 离线任务的运维平台,致力于提供高效、智能、功能强大的运维能力,辅助运维人员快速完成任务的运维工作。 架构图 功能亮点 基线运维提前感知异常任务,避免生产事故 采用基线方式批量监控任务实例,能够快速定位当前基线上任务延迟时间最长的问题,将基线上异常实例的信息报警给基线所属值班组的值班人员,提醒其进行处理。 加速任务处理,保证核心任务按时产出 当任务实例出现大规模延迟产出时,为了保障核心任务优先运行,可将任务加入到加速任务池当中,将资源优先分配给这类高优任务,优先保障核心任务的产出。 任务血缘理清任务依赖关系,提高运维效率 支持通过任务血缘进行任务异常定位、影响分析、价值评估,帮助运维人员快速理清任务依赖关系,提高运维效率。 冻结池一键解决脏数据扩散问题 当源头数据出现异常时,例如源头数据丢失、计算逻辑错误、依赖缺失导致提前执行等,为了防止脏数据向下游扩散,可通过冻结池将异常任务及其下游进行冻结。冻结期间可对异常数据进行修复,修复完成后进行解冻操作即可恢复整个链路的正常运作。 智能诊断提升运维人员排障效率 支持对任务运行失败的原因进行分析,包括代码错误、参数配置错误、资源不足、权限问题、数据质量校验不通过等,提供报错日志分析、错误原因归类、诊断建议、诊断效果反馈、知识库管理等功能,快速提升运维人员的自排查能力,提升了问题定位的效率。 产品效果 数据治理 数据治理是数据生产力方法论中紧扣业务价值的环节,EasyData对数据开发的内容结果进行持续化运营动作,并结合产品层面数据标准建立、业务指标定义、元数据模型设计、数据质量校验稽核、安全中心权限管理等能力,使底层数据可无缝服务上层企业业务需求,实现围绕业务场景的数据价值持续释放。 数据标准 指标系统 数据标准 在数据治理中作为“标杆”进行衡量,通过导入行业标准与挖掘企业已有数据标准,实现标准的管理、执行、反馈、优化全环节管控,帮助企业在数据使用的过程中建立一套贴合业务场景诉求的数据标准,并通过与数据质量、模型设计、元数据等模块打通深度结合至开发过程,将标准的业务价值落在实际开发过程中。 架构图 功能亮点 自定义注册模版,紧密贴合业务诉求 除默认配置外,支持用户基于系统现有属性对数据标准定义过程中的数据元