火山引擎视频云 技术实践精选集 面向体验驱动增长 2023版 抖音同款的音视频技术实践与前沿探索 FOREWORD 卷首语 龙年开端,OpenAI推出的视频生成模型,横空出世,引发业界广泛关注,而24年也被认为是AI视频元年,从泛互联网到全行业应用,从2D视频到3D互动,从虚实结合到虚实融合,技术将推动我们走向全新的世界。 而技术从来不曾孤单,它在无尽的探索中寻找同伴,渴望得到协助,一同照亮未知的领域。共享与进化,是它永恒的方向,每一步前行都承载着时代的梦想,引领我们共同迈向一个更加美好的未来。 火山引擎视频云,基于抖音集团音视频技术沉淀,致力于打造面向体验的视频云,帮助企业端到端提升视频能力,实现播放体验、画质体验、交互体验、性能体验的全面提升与创新。 特别推出《火山引擎视频云实践精选集》2023版,收录了全年70余位音视频专家倾情出品的24篇技术深度Blog,期待给各位同仁带去一些思考和启发的同时,也能在AI视频元年到来的今天,一起探索、融合和推动音视频技术进步和发展。 精选集内容将围绕火山引擎视频云与抖音集团在过去一年的音视频技术实践,包括: ◎计算机视觉、人工智能&视频质量、音频技术领域等全球前沿的论文精选; ◎AIGC、6DoF互动、三维重建等能力叠加的技术探索; ◎画质、交互、播放、性能等用户指标的体验优化; ◎赛事、游戏、汽车、VR大空间等行业场景的最佳实践; CONTENTS 目录 Interspeech2023003 PART 1火山引擎流媒体音频技术之语音增强和AI音频编码 全球前沿 THEGLOBAL ÏRONTIER PART 2 技术探索 TECHNOLOGYEXPLORATION 火山引擎获全国人工智能大赛AI+视频质量评价冠军 CVPR2024满分论文 DEÏORMABLE3DGAUSSIAN: 基于可变形3D高斯的高质量单目动态重建新方法 CVPR2024 MODULARBLINDVIDEOQUALITYASSESSMENT 模块化无参视频质量评估 CVPR2024 CAMixerSR动态注意力分配的超分辨率加速框架 和德爷一起6DoÏ互动探险火山引擎空间重建和虚实融合技术让文物“活”起来揭秘火山引擎视频云三维重建技术 基于深度学习的超分辨率效果优化 3 火山引擎实时、低延时拥塞控制算法的优化实践云上智能驾驶三维重建最佳实践 017 019 023 029 035 041 048 053 061 如何利用播放器节省20%点播成本?069 体验优化 PART EXPERIENCE OPTIMIZATION PART 4 最佳实践 BESTPRACTICE 深度解读字节跳动的画质评估工具抖音也在用 实战超低延时直播技术的落地实践 超低延时直播技术演进之路 WebTransport开播的应用实践之路 veImageX演进之路:iOS高性能图片加载SDK RTC端到端视频体验优化技术实践与探索 视频时代需要一个新的“体验增长论”了 抖音世界杯的画质优化实践解析“世界杯直播”技术实践解析:抖音视频编码器优化抖音世界杯直播的低延迟是怎么做到的? 游戏出海,如何让全球玩家“纵享丝滑”体验?毫末智行&火山引擎,迈向自动驾驶“智”高点龙游神州:揭秘云VR大空间背后的技术魔法 076 084 098 105 110 117 129 137 141 145 158 160 163 01 全球前沿 THEGLOBALFRONTIER Interspeech2023 火山引擎流媒体音频技术之语音增强和AI音频编码 摘要 ◎基于可学习梳状滤波器的轻量级语音谐波增强方法 ◎基于Intra-BRNN和GB-RVQ的端到端神经网络音频编码器 ◎基于两阶段渐进式神经网络的回声消除方法 ◎CHiME-7无监督域自适应语音增强(UDASE)挑战赛冠军方案 背景介绍 BACKGROUND 为了应对处理各类复杂音视频通信场景,如多设备、多人、多噪音场景,流媒体通信技术渐渐成为人们生活中不可或缺的技术。为达到更好的主观体验,使用户听得清、听得真,流媒体音频技术方案融合了传统机器学习和基于AI的语音增强方案,利用深度神经网络技术方案,在语音降噪、回声消除、干扰人声消除和音频编解码等方向,为实时通信中的音频质量保驾护航。 作为语音信号处理研究领域的旗舰国际会议,Interspeech一直代表着声学领域技术最前沿的研究方向,Interspeech2023收录了多篇和音频信号语音增强算法相关的文章,其中,火山引擎流媒体音频团队共有4篇研究论文被大会接收,论文方向包括语音增强、基于AI编解码、回声消除、无监督自适应语音增强。 值得一提的是,在无监督自适应语音增强领域,字节跳动与西工大联合团队在今年的CHiME(ComputationalHearinginMultisourceEnvironments)挑战赛子任务无监督域自适应对话语音增强(Unsuperviseddomainadaptationforconversationalspeechenhancement,UDASE)获得了冠军(https://www.chimechallenge.org/current/task2/results)。CHiME挑战赛是由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等知名研究机构所于2011年发起的一项重要国际赛事,重点围绕语音研究领域极具挑战的远场语音处理相关任务,今年已举办到第七届。历届CHiME比赛的参赛队伍包括英国剑桥大学、美国卡内基梅隆大学、约翰霍普金斯大学、日本NTT、日立中央研究院等国际著名高校和研究机构,以及清华大学、中国科学院大学、中科院声学所、西工大、科大讯飞等国内顶尖院校和研究所。 本文将介绍这4篇论文解决的核心场景问题和技术方案,分享火山引擎流媒体音频团队在语音增强,基于AI编码器,回声消除和无监督自适应语音增强领域的思考与实践。 论文地址: https://www.isca-speech.org/archive/interspeech_2023/le23_interspeech.html 基于可学习梳状滤波器的轻量级语音谐波增强方法 背景 受限于时延和计算资源,实时音视频通信场景下的语音增强,通常使用基于滤波器组的输入特征。通过梅尔和ERB等滤波器组,原始频谱被压缩至维度更低的子带域。在子带域上,基于深度学习的语音增强模型的输出是子带的语音增益,该增益代表了目标语音能量的占比。然而,由于频谱细节丢失,在压缩的子带域上增强的音频是模糊的,通常需要后处理以增强谐波。RNNoise和PercepNet等使用梳状滤波器增强谐波,但由于基频估计以及梳状滤波增益计算和模型解耦,它们无法被端到端优化;DeepFilterNet使用一个时频域滤波器抑制谐波间噪声,但并没有显式利用语音的基频信息。针对上述问题,团队提出了一种基于可学习梳状滤波器的语音谐波增强方法,该方法融合了基频估计和梳状滤波,且梳状滤波的增益可以被端到端优化。实验显示,该方法可以在和现有方法相当的计算量下实现更好的谐波增强。 模型框架结构 基频估计器(F0ESTIMATOR) 为了降低基频估计难度并使得整个链路可以端到端运行,将待估计的目标基频范围离散化为N个离散基频,并使用分类器估计。添加了1维代表非浊音帧,最终模型输出为N+1维的概率。和CREPE一致,团队使用高斯平滑的特征作为训练目标,并使用BinaryCrossEntropy作为损失函数: 可学习梳状滤波器(LEARNABLECOMBFILTER) 对上述每一个离散基频,团队均使用类似PercepNet的FIR滤波器进行梳状滤波,其可以表示为一个受调制的脉冲串: 在训练时使用二维卷积层(Conv2D)同时计算所有离散基频的滤波结果,该二维卷积的权重可以表示为下图矩阵,该矩阵有N+1维,每一维均使用上述滤波器初始化: 通过目标基频的独热标签和二维卷积的输出相乘得到每一帧基频对应的滤波结果: 谐波增强后的音频将和原始音频加权相加,并和子带增益相乘得到最后的输出: 在推断时,每一帧仅需要计算一个基频的滤波结果,因此该方法的计算消耗较低。 模型结构 团队使用双路卷积循环神经网络(Dual-PathConvolutionalRecurrentNetwork,DPCRN)作为语音增强模型主干,并添加了基频估计器。其中Encoder和Decoder使用深度可分离卷积组成对称结构,Decoder有两个并行支路分别输出子带增益G和加权系数R。基频估计器的输入是DPRNN模块的输出和线性频谱。该模型的计算量约为300MMACs,其中梳状滤波计算量约为0.53MMACs。 模型训练 在实验中,使用VCTK-DEMAND和DNS4挑战赛数据集进行训练,并使用语音增强和基频估计的损失函数进行多任务学习。 实验结果 ModelSDR(dB)STOIPESQMACs(M) ModelSDR(dB)STOIPESQMACs(M) 流媒体音频团队将所提出的可学习梳状滤波模型和使用PercepNet的梳状滤波以及DeepFilterNet的滤波算法的模型进行对比,它们分别被称作DPCRN-CF、DPCRN-PN和DPCRN-DF。在VCTK测试集上,本文提出的方法相对现有方法均显示出优势。 Noisy 8.39 0.921 1.97 - PercepNet[10] - - 2.73 800 DeepFilterNet[11] 16.6 0.942 2.81 350 DeepFilterNet2 - 0.943 3.08 360 DPCRN 17.9 0.947 3.03 299 DPCRN-PN 18.3 0.945 3.06 300 DPCRN-PN+idealR 18.5 0.949 3.10 300 DPCRN-DF 18.1 0.944 3.06 310 DPCRN-CF 18.5 0.949 3.12 300 DPCRN-CF+rescaling 18.4 0.948 3.13 300 ModelSIGBAKOVL ModelSIGBAKOVL 同时团队对基频估计和可学习的滤波器进行了消融实验。实验结果显示,相对于使用基于信号处理的基频估计算法和滤波器权重,端到端学习得到的结果更优。 Noisy(DNS-4blindprimary) 4.16 2.97 3.31 DPCRN-CF 4.12 4.42 3.83 DPCRN-CF(pYIN) DPCRN-CF(Learnableweights) 4.12 4.13 4.35 4.45 3.77 3.85 论文地址: https://www.isca-speech.org/archive/pdfs/interspeech_2023/xu23_interspeech.pdf 基于Intra-BRNN和GB-RVQ的端到端神经网络音频编码器 背景 近年来,许多神经网络模型被用于低码率语音编码任务,然而一些端到端模型未能充分利用帧内相关信息,且引入的量化器有较大量化误差导致编码后音频质量偏低。为了提高端到端神经网络音频编码器质量,流媒体音频团队提出了一种端到端的神经语音编解码器,即CBRC(ConvolutionalandBidirectionalRecurrentneuralCodec)。CBRC使用1D-CNN(一维卷积)和Intra-BRNN(帧内双向循环神经网络)的交错结构以更有效地利用帧内相关性。此外,团队在CBRC中使用分组和集束搜索策略的残差矢量量化器(Group-wiseandBeam-searchResidualVectorQuantizer,GB-RVQ)来减少量化噪声。CBRC以20ms帧长编码16kHz音频,没有额外的系统延迟,适用于实时通信场景。实验结果表明,码率为3kbps的CBRC编码语音质量优于12kbps的Opus。