面向6G的多维融合的数据编织技术演进 EvolutionofDataWeavingforMulti-dimensionalFusionToward6G 2024/04/16 摘要 随着5G向6G的演进,网络的组成已发生明显的变化。未来的空天地一体化演进,将传统的陆地移动通信的组网范畴从地表扩大向高空和太空,建立地面、空中、卫星组成的空间立体维度的通信网络。不仅通信的形式将改变,网络的组网、资源的编排调度等都将形成新的格局。同时,随着网络算力提升和物联网的高速发展,多类型传感器增加了网络对环境更强的感知力,通信、感知、算力的融合,为未来6G网络提供了前所未有的全方位信息交互和信息处理环境。如何充分利用和管理好空天地、通感算带来的新数据维度、新交互模式,为6G通信网络智能化提供多维度融合的数据和信息,成为当下数据信息技术演进的重要话题。本白皮书从6G系统视角分析其数据诉求,分析数据编织演进方向和面临的挑战,尝试列出关键数据使能技术以实现6G时代的数据智能。 摘要2 1.数据编织概述6 1.1数据编织的现状6 1.2.数据编织的定义6 1.3.数据编织的应用价值7 2.以6G系统视角看数据8 2.1.6G多维数据的价值8 2.2.系统自身产生的大数据8 2.3.系统智能化的数据诉求10 2.4.新技术引入的多维数据11 2.5.多维度数据融合与数据编织成为6G数据治理的重要突破口12 3.面向6G的数据编织技术演进方向13 3.1.6G对数据编织提出的技术挑战13 3.1.1.多维度数据与数据融合13 3.1.2.数据检索性能要求13 3.1.3.数据有效性要求14 3.1.4.数据主权14 3.2.面向6G的数据编织技术演进15 4.面向6G的数据编织框架与功能16 4.1.面向6G的数据编织框架16 4.2.关键功能与组件18 5.数据编织演进使能技术20 5.1.语义知识图谱20 5.2.主动元数据21 5.3.数据编排22 5.4.DATAOPS23 5.5.数据虚拟化访问23 6.挑战及风险25 7.总结与展望26 7.1.总结26 7.2.展望27 参考文献28 缩略语29 文档作者列表: 贡献者 单位 王首峰、郭建超、张联华、王立冬、冉旭、曹阳 亚信科技(中国)有限公司 严学强、习燕、赵明宇、王俊凡 华为技术有限公司 李瑞华、裴郁杉、黄蓉、徐乐西 中国联合网络通信集团有限公司 李唯源 中国移动通信集团有限公司 张晓康、包施晗、徐晖、孙万飞 中信科移动通信技术股份有限公司 杨立、王菲、谢峰 中兴通讯股份有限公司 王卫东、王程、王朝炜、秦晓琦 北京邮电大学 赵楠 大连理工大学 曹越 武汉大学 温淼文 华南理工大学 孙文 西北工业大学 1.数据编织概述 1.1数据编织的现状 数据是企业数字化转型重要驱动因素,在去中心化、分布式的网络架构趋势下,大量的数据产生于分布式模式下的多个节点中,数据源以及数据量不断增加。同时,不同的系统和应用程序可能会独立存储和管理其数据,导致数据孤立和难以整合,数据和应用孤岛的数量不断增加,多维数据的连接、协同、融合充满挑战。缺乏全面的数据访问和使用会导致智能化业务的能力难以开展,预测数据的可用性、可靠性降低,以及分析效率低下。企业必须使用一种新型的数据管理来应对企业数据资产日益加剧的多样化、分布式、规模、复杂性等问题。正是基于上述问题,数据编织应运而生,用于解决数据的多样性、分散性、规模和复杂性不断增加带来的一系列问题。数据编织作为一种有前途的数据管理解决方案而受到越来越多的关注,有分析机构甚至认为数据编织(DataFabric)架构是数据管理的未来,也是数据治理的福音。 1.2.数据编织的定义 数据编织是一种新兴的数据管理和数据集成设计理念,是为应对复杂的混合数据环境所面临的挑战而设计的一种架构方式,侧重于实现统一多样化和分布式数据资产的功能,强调自动化的数据集成、整合和治理,以支持跨云环境下的便捷交付部署。 数据编织基础理念是通充当数据端点之间的虚拟连接组织,它通过一个通用的架构,连接所有物理的、虚拟的、云化的环境,将可信数据从所有相关数据源、以灵活且业务可理解的方式交付给所有相关数据消费者,从而提供比传统数据管理更多的价值。Gartner将数据编织定义为包含数据和连接的数据操作层,通过对存储的、可感知和可预测的元数据进行不断地分析,支持数据系统跨平台的设计、部署和使用,从而可以自 发现地将数据提供需要的使用者[1]。IBM认为数据编织的本质是一个数据管理平台,包括数据发现、治理、管理和编排在内的、全面的集成数据管理功能。数据编织通过结合AI、ML(MachineLearning)和数据科学的技术,改善分布式数据的访问,并进行智能的管理和编排,有助于简化数据访问,促进自助式数据使用[2]。数据编织应该能做到在正确的时间,任意位置,将正确的数据与正确的人连接起来,从而全面释放数据价值[1]- [2]。 1.3.数据编织的应用价值 数据编织其实质上是一种数据管理架构思想,其真正价值在于是打破了企业内部的数据孤岛,通过动态改善数据的使用,最大化释放数据价值。据Gartner预测:数据编织利用分析功能来持续监控数据管道,通过对数据资产的持续分析,支持各种数据的设计、部署和使用,缩短集成时间30%,缩短部署时间30%,缩短维护时间70%[1]。 数据编织架构是以业务导向的一个灵活的数据架构,它形成的是一个系统性、动态的数据资产知识网络,在需要时根据需求交付所需的数据,而无需在发生改变时重新定义数据流,降低了数据管理成本。通过数据编织架构保障了数据供给的一致性和质量,有效支撑了企业在多云环境下多类型数据存储、多场景分析等诉求,提高数据可用性。数据编织利用先进的技术和工具,如知识图谱和语义技术,加快数据的访问速度,并促进数据在组织内部和外部的安全共享。数据编织支持数据素养和自服务分析,鼓励业务用户快速找到、整合、分析和共享数据,从而推动数据驱动的决策和创新。同时,数据编织为集成新兴技术(如人工智能、机器学习等)提供了基础,使组织能够利用这些技术来增强数据分析和业务智能[2]。 通过数据编织能使企业以最有效和最自动化的方式实现“数据驱动”,让企业的数据资产可见、可用,最大化释放数据的价值,满足“用上数据和用好数据”的核心需求,提升了业务效率。 2.以6G系统视角看数据 2.1.6G多维数据的价值 在6G时代,数据将成为系统的核心,推动数字化与智能化的融合。6G多维数据可分为通信数据、感知数据和计算数据。通信数据是用户的通信载荷,包括各种通信场景中产生的数据。感知数据涵盖了各种感知测量数据,如基站与终端之间基于空口信号的测量数据,以及无线感知结果,如感知目标的定位、速度和成像等信息,同时还包括了来自传感器、摄像头等设备的多种模态感知结果,如温度、压力、图像、视频等。计算数据则包括了模型训练数据、算法模型数据以及网络外的数据计算处理结果。 这些数据将从各个维度产生和流动,成为推动智能化应用和服务的基础,为各行各业带来前所未有的变革和发展机遇。随着6G网络的发展,数据将不断增长,并呈现出多样性和复杂性。通过充分利用这些多维数据,6G系统将实现更深层次的智能化,为各行业提供更加精准、高效的服务和应用支持。 2.2.系统自身产生的大数据 随着6G时代的到来,未来将衍生出诸多新型产业和场景,部署各种新型应用,如通信感知一体化、内生AI(ArtificialIntelligence)等。同时由于通信感知融合,终端和 传感器无处不在,网络自身也成为海量数据的生产者[4]。6G网络中产生的数据分为感知数据、AI数据、IoT(InternetofThings)数据和网络操作维护数据四类。其中感知数据指通信感知一体化数据,包括原始数据、感知测量数据、预处理数据、感知结果以及非3GPP感知数据(如LiDar,LightLaserDetectionandRanging数据等)。AI数据指模型数据、AI元数据,训练测试推理数据集,训练过程中产生的中间数据。IoT数据包括智能穿戴设备、家居设备、工业物联网设备、智能医疗设备等产生的数据。网络操作维护数据包括配置、告警、性能、CHR、MR以及各类系统日志等。据IDC的预测,到2025年,全球将有557亿连接设备,其中75%为IoT设备,到2025年它们将产生73.1ZB。随着智能连接设备的普及,连接智能场景将产生和消费大量的数据,如一辆自动驾驶车辆,其配置的各类车载传感器,包括摄像头、激光雷达、声纳、雷达、GPS等,每天产生约4TB数据。据statista预测,到2025年全球产生和消费的数据总量将达到181ZB。而据华为预测,到2030年全球每年产生的数据总量将达到1YB,相比2020年增长23倍。 如何“开采”和“提炼”以挖掘和实现数据价值,是6G网络面临的挑战。当前运营商网络运维中主要还是以专家人工模式为主,网络问题发生后,通过客户投诉驱动,专家通过OSS(OperationSupportingSystem)、网管、知识突破或工具辅助进行人工分析、决策和闭环,难以满足未来海量连接、网络规模不断增长的需求。而且传统的“规、建、维、优”各个阶段相对独立的,上下游之间依靠流程和人工传递,缺乏全流程的数据共享与智能来保障全生命周期的体验。因此网络数字化是实现网络自动化执行能力的基本前提,为网络态势感知、分析,以及AI训练与推理活动提供网络操作数据,包括网络的资源、业务数据,配置数据,也包括运行状态、故障、日志等动态实时数据。利 用网络大数据以及AI的能力构建数字孪生智能网络保障网络运维,实时优化网络将成为未来网络规划、运行、管理和运营的新方向。 2.3.系统智能化的数据诉求 数智化是数字化加智能化,是在数字化的基础上通过引入先进技术而对企业的创新和发展提出的更高诉求。6G系统智能化的数据诉求是实现数字世界与物理世界深度融合,为工业智能控制、无人驾驶、虚拟现实等高新技术相关的各行各业提供可靠的网络运行。6G系统智能化要求数据具有准确性、一致性、安全性、可访问性和可扩展性,从而让数据驱动业务变得更精准、更有效,以便提升决策效率、优化业务流程、增强客户体验、降低运营成本以及促进创新发展。 “数据驱动”已经成为企业在6G时代提高自适应性和创造力以应对未来挑战的必然选择。随着网络技术的发展以及网络设施的不断完善,人工智能、大模型、物联网等领域得到快速发展,系统智能化需要高质量的数据来支持其决策和操作。企业数据在物理上支离破碎,带来了越来越复杂的数据管理需求,系统智能化需要确保不同来源、不同格式的数据保持一致性,使散落各处的数据孤岛都能被统一发现和使用,企业须在合规和治理方面表现出更高的要求。同时,随着6G向各行各业加速渗透,数据深入到业务各个环节,让企业数据资产多样性、分散性、规模和复杂度不断上升,系统智能化需要确保数据易于访问和共享,以便不同部门和人员能够快速获取所需的数据。6G业务需要准确、实时的洞察来支持业务决策,帮助业务发现或者创造机会,系统智能化需要确保数据能够随着业务的发展而扩展,以满足不断增长的业务需求。 2.4.新技术引入的多维数据 未来6G网络将引入通信感知计算一体化服务,增加卫星通信、高空平台通信并实现多种通信技术与陆地移动通信之间的融合统一。新的空口技术、智能超表面等新型无线通信设备的引入,将进一步增加6G系统内部数据种类的多样性和复杂程度。利用软硬件资源、多种网络设施的协同与共享实现多维感知、多网络协作通信、智能计算功能的深度融合和互惠增强,从而能够对物理世界进行观测并采样,开启物理世界与数字世界融合的通道,提供定位、测距、测速、成像、检测、识别等多元化能力。卫星通信和智能超表面等技术丰富了传统网络中的通信数据种类。此外,通感算一体化服务还引入了感知数据和计算数据,并且需要完成对多网络多类型的通信数据、感知数据和计算数据的采集、预处理、存储和内外协同,统管数据的全生命周期,提升海量网络数据