华为数智融合技术分享 华为云⻰江 2023年3⽉17⽇ArchSummit全球架构师峰会 个⼈介绍 进⼊数字经济时代,数据成为重要⽣产资料,激发数字经济发展 2025年产业数字化机会23万亿$ 数据:数字经济时代的重要⽣产资料 ⽣产⼒ ⽣产⼯具 ⽣产资料 ⼈⼒/畜⼒锄/犁/锹 ⼟地 热⼒/电⼒机械 煤/⽯油/矿 算⼒/⽹络云、5G、AI 1.5万亿 零售 5万亿 信息科技 0.5万亿 公共事业 1.1万亿 其他 3.0万亿 咨询服务 6.4万亿 制造 2.9万亿 ⺠⽣服务 1.7万亿 ⾦融 0.9万亿 交通 数据 Y=F(N,L,K,T,D) N:⼟地 L:劳动⼒ Y:经济产出 K:资本 T:技术 F:⽣产函数 D:数据 农业经济⼯业经济数字经济 Source:HuaweiGIV2025 释放数据价值,需要企业从数据管理⾛向数据智能 数据智能体验 每天亿级数据标签智能匹配 智慧新闻,精准⽤户体验 数据智能决策 垂直的深度和厚度同样重要 50年油⽥历史数据智能挖掘 ⽯油开采,智慧决策钻井深度 数据智能流程 每天10万+次数据碰撞 智慧差旅:智能流程合并 ⾯临三⼤难题,数据价值很难得到充分挖掘 数据治理难技术⻔槛⾼业务仿真难 数据质量低,取数难、找数难、计算难、⽤数难 数据处理到AI开发,到最终实现业务价值,涉及⼏⼗道⼯序,技术⻔槛⾼,协作难度⼤ 如何借助数据与模型,模拟、验证、预测、控制业务的全⽣命周期 华为云数据智能创新愿景 ⽅向:研究下⼀代数据智能基础设施,DataIntelligenceInfrastructure,打造⼀站式、全链路的数据智能平台,通过对海量复杂数据问题的业务抽象与有效分析,帮助⽤户专注于解决现实世界的问题; 愿景:数据智能驱动决策,Providerightdatatorightpersoninrighttime; 业务对象、规则、过程数字化 数字业务化数据清洁数据透明 数据联接 实时可⻅,智能洞察 数据采集/处理⾃动化、智能化 数据领域由企业扩展到⽣态伙伴 极致萃取数据价值全链路No-code ⼈⼈都是数据科学家 ⾃动数据处理 (AutoETL) ⾃动算法模型 (AutoML) 安全共享、数据合规 华为云数据智能核⼼技术理念 DataIntelligenceasaService DIaaSDaaSDLaaSMaaS •在AI的辅助下,⽤户⽆需专家技能也可以进⾏数据治理、提升数据质量、进⾏可视化分析与设计; •持续智能,AI能⼒⾃我持续增强; •可解释的AI,让⽤户理解AI推荐的结果。 DataasaService •数据即服务,按需⾃助提供数据服务,所搜即所得,所得即可视化,⽤户 ⽆需关⼼数据的位置、数据的结构、数据的处理逻辑; •⽤户可以发现他所不知道的异常、或者预测业务未来发展。 DataLakeasaService .⽆需编码即可构建数据湖 .集成任何格式、结构和规模的数据,增强数据管理 .⽀持实时、批量数据处理 .⾃定义、可编辑的数据模型,将数据表示为业务对象 .数据、元数据、模型和代码的版本控制能⼒ MetadataasaService •提供企业数据资产内容的统⼀视图与唯⼀真相来源,包括技术资产与业务资产; •⽤户可以很⽅便的发现、描述、使⽤数据资产; •给⽤户智能化的资产搜索、推荐体验,帮助⽤户发现他所不知道的数据价值与数据关系; 数据智能基础设施整体架构与技术研究⽅向 智能应⽤构建 关键技术 ⽆码化应⽤开发、决策智能对接应⽤ 智能分析与洞察 增强分析、根因分析、what-if决策、因果推断、标签⾃动⽣成与智能匹配 智能数据治理 数据+元数据⼀体化的企业知识图谱;指标探索的可视分析;全链路性能与成本监控;智能分级、加密脱敏技术;智能质量评分与质量修复 智能数据准备 CDC实时⼊湖、AutoML、AutoETL、NL2SQL、AutoAPI⽣产 智能内核层 元数据治理内核:元数据联邦、全链路⾎缘、关系图谱、profiling;智能数据治理算法、智能可视分析算法、计算任务智能编排调度算法等 多元化计算层 多引擎统⼀元数据存储、版本管理、权限、接⼝服务;计算任务跨引擎调度;SQL+AI融合计算 统⼀存储层 memarts缓存加速、shuffle加速、⾼速索引、⾃动数据优化(格式转换、预读、⽼化、冷热数据识别业)、务计算应下推⽤(数据缩减,推理,训练,特征匹配)华为内部统⼀数据智能底座 数百PB数据、百万级任务、⼗万级报表、数⼗场景的智能辅助决策 关键技术:AIforData智能治理&分析算法服务 资产⽬录 对海量资产进⾏⾃动资产编⽬,提升资产完整性和准确性 数据标准. 对已发布的数据标准进⾏去重,提升数据标准质量;对未发布资产推荐和⾃动⽣成数据标准,提升资产发布效率 重复建设 精准搜索 通过数据结构、数据内容、⽤户群体相似等特征智能识别数据湖、中台资产和数据服务重复建设 数据整合⽅案 通过AI识别贴源区、整合区资产的数据关系,智能输出数据整合⽅案 对⽤户、数据资产分别进⾏画像,再通过AI实现智能精准搜索、推荐 知识图谱 对应⽤、指标、数据、任务,从业务相关性、相似性、⾎缘等⻆ 异常数据预警 对不匹配预期报告结果(例如某个数值较⽇常突然指数级增⼤等)进 ⾏监控预警 智能图表推荐 基于⾃然语⾔的搜索请求,智能 数据模型根据数据结构和数据内容智能识别主外键、建⽴模型,厘清海量数据之间的关系,提升资产建设和消费效率 隐私安全基于元数据向量距离识别个⼈唯⼀身份标识,并识别所有个⼈数据属性,确保准确率、查全率;对海量资产进⾏密级推荐,提升定密效率,促进共享与安全 数据⾎缘根据数据结构和数据内容智能识别数据集成关系,进⾏主数据治理、质量问题分析、数据源认证等 度建⽴关系图谱,形成企业数据资产的知识图谱 数据质量 通过AI智能识别不确定业务规则数据质量问题,提升数据质量识别效率和提前预警 ⽣成查询query,并基于查询结果智能推荐可视化图表 智能故事叙事 基于对数据的智能分析与理解,智能输出数据故事 部分研究成果在ICDE、VLDB、TVCG、CSCW等国际顶级学术会议发表论⽂: ApproximatingMedianAbsoluteDeviationwithBoundedError.Proc.VLDBEndow.14(11):2114-2126(2021);CapturingSemanticsforImputationwithPre-trainedLanguageModels.ICDE2021:61-72 InteractiveDataAnalysiswithNext-stepNaturalLanguageQueryRecommendation.TVCG-2022-10-0539.ColorCook:AugmentingColorDesignforDashboardingwithDomain-AssociatedPalettes.ACMCSCW2022DiscoveringEditingRulesbyDeepReinforcementLearning.ICDE2023 关键技术:⾃动,⾃愈,⾃优的智能数据流⽔线 关键挑战: •⼤数据开发周期⻓:企业花费1000+⼈⽉的时间,不能满 ⾜业务敏捷性。 •⼤数据管理维护成本⾼:⼈⼯运维,事后补救,宕机频繁,耗时耗⼒ •⼤数据资源:业务技术更新快,开发⼈员难以与时俱进,资源浪费严重 核⼼服务能⼒: •⾃动:⼤数据开发即服务:智能数据开发,⽆缝连接企业数据,ML/AI模型,业务和应⽤。 •⾃愈:⼤数据管理即服务:统⼀运维,治理,监控,告警,根因分析,预测,⾃愈。 •⾃优:⼤数据资源优化即服务:基于⽤户⾏为,预算,SLA,应⽤等智能优化数据存储,数据模型,计算引擎,联邦查询 关键技术: •数据识别:关系,相似,领域 •数据标识及解析:半/⾮结构化数据 •⾃然语⾔搜索与发现 •数据质量稽核:查重、清洗、合并、丰富 •⾃动数据编排,识别数据模型与连接 •流批⼀体:采集,处理,服务 •动态本体建模,知识图谱,数字孪⽣ •低代码/⽆代码数据处理及建模 • 分享 第三⽅应⽤嵌⼊BI 订阅 待办 移动端 关键技术:构建智能数据洞察ModernBI能⼒,降低数据分析⻔槛 关键特性 智能数据故事 ⾼阶分析能⼒ ⼯作空间(可视分析与报表制作) 智能⻅解 仪表盘 智能交互(NLI) 异测/根因 ⻅解描述 智能推荐 预警 即席分析(⼯作表) 智能主题 聚类/趋势 报表保存/预览 报表导⼊ 图表推荐 关联分析 ⾃定义公式 集成python等 图表优化 多维预测 故事⽣成 时序分析 时序 图 XAI 地理 ⽂本 智能决策 图优化 NL2SQL … 可视化组件库(d3) DaaSEngine ⾃然语⾔交互“所搜即所得” •⽀持即席分析,即基于表格领域的解决⽅案 •基于d3的可视化组件库转变(SDK) •增加SmallMultiple这⼀类型组件 •NLI能⼒的落地 •数据洞察主模块与⼦模块交互能⼒(⾄少时序) •地理数据⼦模块 •报表导⼊/分⻚ 基于⾏业模板的智能数据故事⽣成 •基于模板/⾃动⽣成数据故事,让数据会“说话” •图表、⻅解⾃动增加⽂字描述(NLG) •智能决策 •智能主题/配⾊ •图表智能优化 ⾼阶分析能⼒A-Chart •增强异常监测与根因分析 •⽀持聚类/趋势/关联分析 数据 准备 数据模型 指标系统 数据建模 QueryEngine 数据连接 Mysql GuassDB MRS DLI API Files … •集成python、R等分析应⽤代码能⼒(调⽤数据处理接⼝) •⾃定义规则 轻量化BI,⽀持第三⽅应⽤嵌⼊和分享: •BI报表成为⼀种数据资产,⽀持直接嵌⼊到上层SaaS应⽤中; •安全性,组织、⾏、列权限管控,导出权限控制; 关键技术:动态本体建模,构建企业数字孪⽣ 数字 孪⽣ 企业\IOT数字孪⽣ 特点:物理世界的数字化镜像。 挑战:与物理世界互动、仿真&预测、智能决策执⾏ 本体\语义⽹\知识图谱 本体:OWL 特点:本体是共享概念模型的明确的形式化规范说明。语义⽹提供了⼀个通⽤框架,允许跨应⽤程序、企业和社区边界共享和重⽤数据。 挑战:静态语义表示⽆法反应快速变化的物 分类法:RDF-S理世界 数据交换:RDF 数据库\数仓模型 概念模型(实体-关系图) 特点:数据库\数仓建模,以数据表、列和主外键外系构建,偏重于特定应 ⽤程序实现 逻辑模型(关系模型、维度模型) 挑战:偏重技术实现,⽆法完整表示业务流程和对象关系 物理模型 特点:⼤量、多样性、⾼速 数据 挑战:海量异构数据的管理和分析 结构化数据 (数据库、数据仓库、ERP) 半结构化数据 (Logs、csv、 json、xml) ⾮结构化数据 (图像、视频、 ⾳频、⽂本) 松散类型数据 (IOT) 物理 关键技术 •企业数据接⼊,各种异构数据源批量、实时接⼊、数据清洗、融合、监控 •动态本体建模、标准建模语⾔和可视化建模,基于数据+AI模型+业务模型快速构建数字孪⽣ •AI驱动的业务仿真和预测,为业务优化提供决策⽀持 •数字孪⽣应⽤构建,3D可视化、智能监控和决策执⾏控制台,数字孪⽣与物理世界实时联动 数字 挑战:传统数据库\数仓建模和知识图谱等技术⽆法满⾜企业全业务流程分析和决策需求 关键技术:基于数字孪⽣的企业智能决策⼤脑 数据源 •⾃动发现识别数据与模型的匹配(数据源,数据实体及属性) •数据实体的主键属性 •潜在的脏数据 •业务定义-场景,组织,规范,流程 •数据模型-⾏业模型(模型已知) HR 逻辑数据湖, 对接各种数据源 •数据模型⾃动识别(模型未知) •基于业务模型的规则定义及融合 •基于业务模型的AI/ML模型 •基于业务模型的数据及模型关联 •基于动态本体建模的决策流构建 •基于业务决策流的执⾏,监控,推荐和审计 •基于决策流的数据双向操作 ER