您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[中移智库]:新型视频语义编码技术白皮书(2024年) - 发现报告
当前位置:首页/行业研究/报告详情/

新型视频语义编码技术白皮书(2024年)

文化传媒2024-12-16中移智库华***
AI智能总结
查看更多
新型视频语义编码技术白皮书(2024年)

1 信 程 息 工 通 家 信 国 技 术 新 一 心 代 中 移 究 动 研 新型视频语义编码技术白皮书 (2024年) 发布单位:中移智库 编制单位:中国移动通信研究院 编制说明 参编单位及人员 中国移动通信研究院:喻炜、杨蕾、郭勐、赵丽丽北京大学:马思伟、贾川民 中兴通讯股份有限公司:黄成、李秋婷 前言 随着5G和人工智能技术的发展,视频编码技术迎来了新的机遇。同时,新型视频内容(VR视频、全景视频、自由视点视频等)相继涌现,给数据的存储和传输带来了全新挑战。新机遇带来新挑战,从而引发新型技术需求。在此背景下,视频语义编码技术将基于视频内容和语义特征进行编码,同时追求信号保真度、感知自然性和语义质量,有望突破传统视频编码方法的性能瓶颈,成为助推视频产业高质量发展的新动能。 本白皮书旨在提出视频语义编码技术架构,介绍了视频语义编码技术背景、典型应用场景和相关技术方案,总结梳理了标准化进展,并对未来技术发展趋势进行展望。 本白皮书的版权归中国移动所有,未经授权,任何单位或个人不得复制或拷贝本建议之部分或全部内容。 目录 1.视频编码技术总体发展态势2 2.视频编码技术发展概述5 2.1视频编码5 2.2基于语义通信的编码传输7 3.视频语义编码传输关键技术10 3.1视觉感知编码11 3.1.1JND编码12 3.1.2ROI编码12 3.2生成式编码13 3.3跨模态编码15 3.4机器视觉编码16 3.5编码数据传输16 3.5.1媒体封装17 3.5.2流媒体传输18 4.标准化进展及建议20 4.1AI视频编码21 4.2VR视频编码22 4.3多视点视频编码23 4.4面向机器的视频编码23 5.总结与展望25 缩略语列表26 参考文献28 1.视频编码技术总体发展态势 近年来,随着5G、5G-A和人工智能技术的发展,多媒体通信呈现巨大革新,进而催生了大量以视频为主要媒介的应用场景,比如短视频、视频直播、视频通话、视频会议等。视频编解码技术作为视频产业的基础底层技术,无疑将成为未来产业中的重要一环。尽管视频编解码技术每十年可提升约50%的压缩率,但已然无法跟上当下视频信息量迅速膨胀的步伐。海量的新型视频数据和创新应用场景的迸发涌现,促使视频编码技术不断迭代并呈现多元化发展趋势。因此,亟需发展更为高效智能的视频编码技术,来迎接全新的大视频时代。 多元视觉指标升级,引发超高清视频编码技术需求 随着采集设备和视频技术的升级,视频数据逐渐呈现高分辨率(UHD)、高帧率(HFR)、宽色域(WCG)、高动态范围(HDR)的特点。超高清视频集上述特点于一身,在各应用场景中愈发普及,更为海量的数据使得存储传输压力激增。如何满足高质量、低延迟、少失真、低码率,成为编码技术所需要面临的新挑战。 表1-1HD、FHD及UHD视频参数特点 类别 高清HD 全高清FHD 超高清 UHD 分辨率 720p1280*720 1080p1920*1080 4K3840*2160 8K7680*4320 帧率 30fps 不低于30fps 60fps 120fps 色彩色域 Rec.709 Rec.2020 动态范围 SDR HDR 码率 4-5Mbps 4-10Mbps 8-80Mbps 32-240Mbps 从“看得清”向“看得真”转变,催生编码技术升级 人眼开始追求更宽的视角、更大的范围、更沉浸的体验,VR/AR视频、自由视点视频相继涌现。基于技术成熟度,目前的VR视频泛指3DoF或3DoF+VR视频,如水平360°×垂直360°全景视频、水平180°×垂直180°全景视频等,在拍摄端由不同方向的多个照相机拍摄多路视频并将其拼接融合而成,主要的关键技术包含2D视频拼接、视频编解码、存储和传输。而自由视点视频是一种新型 视频内容,能够让观众自由选择观看位置和角度,从而提供更加沉浸式的观看体验,该技术已成功应用于现场体育赛事、直播表演、在线教育等领域。目前成熟的解决方案是几十台相机组成U型环绕,并采集多个视角的2D视频,然后传输到云端通过深度计算后生成虚拟视角,填补各相机之间的间隔空缺,而后通过2D图像/视频编码传输至用户端解码显示。因此,面向VR和自由视点视频编码压缩主要是针对多相机采集的多路2D视频数据,催生出大数据量视频的高效编码、多视点视频数据间的去冗余编码等升级的编码技术。 视频编码不只追求人眼视觉质量,还要高效地服务于机器视觉处理任务 理想的编码需要同时满足人类视觉系统和机器视觉系统的需求。然而,压缩失真会导致机器视觉性能下降,而质量损失的类型、程度与机器视觉系统能力的变化之间存在不同的关系。随着安防监控、物流仓储管理、智慧交通、智慧工厂等应用场景的相继涌现,面向多元机器视觉分析的视频编码技术需求日渐迫切。 新应用引发新需求,语义编码技术“呼之欲出” 视频编码作为底层基础技术,应用广泛,从传统广电传媒可扩展覆盖至金融、 互联网、工业、教育、新零售、医疗健康、交通物流、政务等行业。表1-2介绍 了常见的应用场景。 表1-2具有代表性的应用场景 场景介绍 需求/特点 视频通话 中国移动5G新通话,微信、QQ、FaceTime等OTT视频通话 低延迟,低码率;人脸为主要处理对象 视频会议 中国移动云视讯、腾讯会议 低延迟;参会人为主要处理对象 视频直播 游戏直播、赛事直播、购物直播 低延迟,超高清;沉浸式的流畅互动体验 安防监控 监控视频通常是全天候无间断拍摄固定位置的场景,产生了海量的监控视频数据,亟需高效的语义视频编码技术来减轻监控视频的存储传输压力 支持超高清;动态的人、车等对象是重要监测对象(语义信息提取分析的关键内容);检测识别性能好 工业视觉 在工业视觉任务及应用场景中,如机器操作、产品质检、流程监控等环节产生了大量视频数据,需要高效存储和传输 需提取与机器视觉任务强相关的语义信息进行压缩,进一步提升机器视觉感知任务的性能。 综上所述,行业应用逐步扩大,业务场景愈发复杂,视频内容和类型越发丰富,视频数据量爆发式增长,视频编码技术无疑面临着巨大的挑战。在此背景下,视频语义编码技术应运而生。视频语义编码,即基于视频内容和语义特征(图1-1)进行编码,同时追求信号保真度、感知自然性和语义质量,有望突破传统视频编码方法的性能瓶颈,为视频产业注入新的活力,进一步提升产业势能,成为助推视频产业高质量发展的新动能。 图1-1高-中-低级语义特征示意图 2.视频编码技术发展概述 2.1视频编码 视频编码技术历经几十年的发展,国内外视频编码标准更新迭代,如图2-2所示,基于块的混合编码框架成为主流的基本架构。目前,国内外基于混合编码框架制定的视频编码标准包括:MPEG-1/2/4,H.261/2/3,H.264/AVC(AdvancedVideoCoding),AVS(AudioandVideoCodingStandardinChina),H.265/HEVC(HighEfficiencyVideoCoding)和H.266/VVC(VersatileVideoCoding)等[1]。 图2-1国内外视频编码标准发展历程 虽然各种视频编码标准之间各有区别,但它们的编码架构都是类似的,混合 编码框架基本结构如图2-2所示。 图2-2传统混合编码框架 新一代的视频编码标准如VVC、AVS3和AV1在编码框架方面虽然仍属于基于预测/变换和熵编码的混合编码框架,但其诸多编码工具和环节与前代视频编码标准相比,具备更细粒度的处理能力和自适应性,带来了显著的编码性能提升。然而,在带来显著编码性能提升的同时,编解码的复杂度也显著增加,这对实时编码提出了巨大的挑战,同时压缩效率的进一步提升遭遇瓶颈。 而人工智能的兴起,尤其是深度学习的发展,促使研究人员开始尝试在图像视频编码领域引入神经网络,以期利用其数据驱动和对机器视觉友好的特质,实现更智能化、更高效的图像视频编码,以期突破传统视频编码方法的瓶颈。 图2-3神经网络图像视频编码技术演进路线图 图2-3详细总结了神经网络图像视频编码的技术演进路线,按编码对象可分为两个方面:1)基于神经网络的图像编码,以及2)基于神经网络的视频编码技术。它们都经历了从单一网络建模到模块替换,再到端到端的螺旋式上升过程,技术迭代随神经网络的发展而更新。 基于神经网络的视频编码技术方案可以归纳为两类[2]:(1)混合神经网络编码:通过将传统混合编码框架中的部分模块替换为经离线训练过的深度学习模块,以提升编码效果。此类方法主要是从五个主要模块,即帧内预测、帧间预测、量化、熵编码和环路滤波进行探索,可参考图2-2,蓝色部分表示可以采用神经网络进行替换[3]。(2)全神经网络编码,即脱离于传统混合编码框架,实现端到端的视频编码。全神经网络编码方法和混合神经网络编码方法各有优缺点,具体的对比分析见表2-1。 表2-1全神经网络编码方法和混合神经网络编码方法优缺点比较 方法 优点 缺点 全神经网络编码(AI端到端编码) 突破传统编码方法的效率瓶颈;可实现超低码率编码;重建纹理更佳 解码复杂度较高;不同的模型相对独立,码流不能互通 混合神经网络编码 (AI辅助编码) 将传统混合编码框架中的主要模块替换为经离线训练过的深度学习模块,进一步提升编码效果 只是替代部分模块,导致不同的模块无法共同优化以达到更高的性能 目前,基于神经网络的视频编码更多的是探索网络模型的组合堆积和复杂模块的引入,未深入分析设计网络模型特性、结构特性等,如何设计并提出高效的端到端视频编码技术和解码方法是亟需解决的问题。同时,如何实现不同模型的码流互通,降低解码端模型推理的硬件要求,实现移动端的高效部署也是该技术落地的关键。 视频语义编码,衍生于传统视频编码框架和基于神经网络的视频编码框架,同时也是两种框架的全新引擎,可进一步提升两种编码路线的编码效率。 2.2基于语义通信的编码传输 近年来,语义通信成为了通信领域的热点方向之一。语义通信,旨在保证发射端和接收端语义信息的准确交互,通过AI相关技术,提取原始输入数据中与接收端任务相关的信息,并进行编码传输,从而有效减少数据冗余来提升传输的有效性。在经典通信模型的基础上,语义通信系统增加了语义知识库、语义编码器、语义译码器,扩展了信道与信宿。其中,语义知识库将从信源中提取语义知识,从信道中提取语义特征,知识和特征(语义标签、参数模型、知识图谱等)作为先验信息以指导编码。语义编码器则是基于语义知识库的先验信息提取信源和信道的语义特征。语义译码器则是基于信宿的传输需求,重建信源信息。语义通信系统是既依赖于又高于经典通信系统之上的高层系统。 张平院士团队提出语义编码方法可大致划分为两类:1)直接编码,即用神经网络从信源序列中提取语义特征并转换成信道中的传输信号,属于信源信道联合编码;2)变换编码方法,信源首先经过非线性变换,提取隐式表征,然后在隐式空间进行信源信道联合编码[4]。秦志金教授团队提出语义通信可分为两类:1):面向语义的通信(关注语义层面)和面向目标的通信(关注有效性层面)[5],如图2-4和图2-5所示。 图2-4面向语义的通信[5] 图2-5面向目标的语义通信[5] 作为通信系统模型的新架构,现有的语义通信更多地是聚焦通信顶层架构设计,目前仍属于前沿探索阶段,尚未形成统一框架。同时,现有方法并未针对视频这一类型信源做大量具体的编码技术探索。目前,已有的工作多是对语音、文本、图片的初步探索,较少的工作考虑了时域信息冗余,且较难和现有的视频编码框架兼容,其通用性收到一定限制。除此之外,语义通信强依赖神经网络模型,需要消耗大量的计算资源[4],特别是移动端的部署较为困难。 表2-2语义通信和视频语义编码的对比分析 分类 处理对象 常见的评价指标 特点 基于语义通信的编码 信源信道 PSNR-SNRPSNR-带宽比 编码器采用神经网络,用于特征生成 属于顶层架构设计,处于前沿探索阶段,

你可能感兴趣

hot

三维沉浸视频技术白皮书(2024)-世界超高清视频产业联盟

文化传媒
世 界 超 高 清 视 频 产业联盟2024-01-01
hot

5G高新视频-VR视频技术白皮书(2020)

信息技术
国家广播电视总局2020-08-05
hot

5G高新视频-沉浸式视频技术白皮书(2020)

信息技术
国家广播电视总局2020-08-05