AI智能总结
面 向 体 验驱 动 增 长 2023版 抖音同款的音视频技术实践与前沿探索 卷首语FOREWORD 龙年开端,OpenAI推出的视频生成模型,横空出世,引发业界广泛关注,而24年也被认为是AI视频元年,从泛互联网到全行业应用,从2D视频到3D互动,从虚实结合到虚实融合,技术将推动我们走向全新的世界。 火山引擎视频云,基于抖音集团音视频技术沉淀,致力于打造面向体验的视频云,帮助企业端到端提升视频能力,实现播放体验、画质体验、交互体验、性能体验的全面提升与创新。 特别推出《火山引擎视频云实践精选集》2023版,收录了全年70余位音视频专家倾情出品的 24 篇技术深度Blog,期待给各位同仁带去一些思考和启发的同时,也能在AI视频元年到来的今天,一起探索、融合和推动音视频技术进步和发展。 而技术从来不曾孤单,它在无尽的探索中寻找同伴,渴望得到协助,一同照亮未知的领域。共享与进化,是它永恒的方向,每一步前行都承载着时代的梦想,引领我们共同迈向一个更加美好的未来。 精选集内容将围绕火山引擎视频云与抖音集团在过去一年的音视频技术实践,包括: ◎◎◎◎计算机视觉、人工智能 & 视频质量、音频技术领域等全球前沿的论文精选;AIGC、6DoF互动、三维重建等能力叠加的技术探索;画质、交互、播放、性能等用户指标的体验优化;赛事、游戏、汽车、VR大空间等行业场景的最佳实践; 目录CONTENTS Interspeech 2023火山引擎流媒体音频技术之语音增强和 AI 音频编码火山引擎获全国人工智能大赛AI+视频质量评价冠军CVPR 2024满分论文DEFORMABLE 3D GAUSSIAN:基于可变形3D高斯的高质量单目动态重建新方法CVPR 2024MODULAR BLIND VIDEO QUALITY ASSESSMENT模块化无参视频质量评估CVPR 2024CAMixerSR动态注意力分配的超分辨率加速框架0030 1 7019023029 和德爷一起6DoF互动探险火山引擎空间重建和虚实融合技术让文物“活”起来揭秘火山引擎视频云三维重建技术基于深度学习的超分辨率效果优化火山引擎实时、低延时拥塞控制算法的优化实践云上智能驾驶三维重建最佳实践0350410480530 6 1 技术探索2TECHNOLOGYEXPLORATIONPART 如何利用播放器节省20%点播成本?深度解读字节跳动的画质评估工具抖音也在用实战超低延时直播技术的落地实践超低延时直播技术演进之路WebTransport开播的应用实践之路veImageX演进之路:iOS高性能图片加载SDKRTC端到端视频体验优化技术实践与探索视频时代需要一个新的“体验增长论”了0690760840981051 1 01 1 71 2 9 3体验优化EXPERIENCEOPTIMIZATIONPART 抖音世界杯的画质优化实践解析“世界杯直播”技术实践解析:抖音视频编码器优化抖音世界杯直播的低延迟是怎么做到的?游戏出海,如何让全球玩家“纵享丝滑”体验?毫末智行 & 火山引擎,迈向自动驾驶“智”高点龙游神州:揭秘云VR大空间背后的技术魔法1 3 71 4 11 4 51 5 81601 6 3 01 全球前沿 THE GLOBALFRONTIER Interspeech 2023火山引擎流媒体音频技术之语音增强和AI音频编码 摘要 ◎ 基于可学习梳状滤波器的轻量级语音谐波增强方法◎ 基于 Intra-BRNN 和 GB-RVQ 的端到端神经网络音频编码器◎ 基于两阶段渐进式神经网络的回声消除方法◎ CHiME-7 无监督域自适应语音增强(UDASE)挑战赛冠军方案 背景介绍BACKGROUND 为了应对处理各类复杂音视频通信场景,如多设备、多人、多噪音场景,流媒体通信技术渐渐成为人们生活中不可或缺的技术。为达到更好的主观体验,使用户听得清、听得真,流媒体音频技术方案融合了传统机器学习和基于 AI 的语音增强方案,利用深度神经网络技术方案,在语音降噪、回声消除、干扰人声消除和音频编解码等方向,为实时通信中的音频质量保驾护航。 作为语音信号处理研究领域的旗舰国际会议,Interspeech 一直代表着声学领域技术最前沿的研究方向,Interspeech 2023 收录了多篇和音频信号语音增强算法相关的文章,其中,火山引擎流媒体音频团队共有4 篇研究论文被大会接收,论文方向包括语音增强、基于 AI 编解码 、回声消除、无监督自适应语音增强。 值得一提的是,在无监督自适应语音增强领域,字节跳动与西工大联合团队在今年的 CHiME (ComputationalHearing in Multisource Environments) 挑战赛子任务无监督域自适应对话语音增强(Unsuperviseddomain adaptation for conversational speech enhancement, UDASE) 获 得 了 冠 军 (https://www.chimechallenge.org/current/task2/results)。CHiME 挑战赛是由法国计算机科学与自动化研究所、英国谢菲尔德大学、美国三菱电子研究实验室等知名研究机构所于 2011 年发起的一项重要国际赛事,重点围绕语音研究领域极具挑战的远场语音处理相关任务,今年已举办到第七届。历届 CHiME 比赛的参赛队伍包括英国剑桥大学、美国卡内基梅隆大学、约翰霍普金斯大学、日本 NTT、日立中央研究院等国际著名高校和研究机构,以及清华大学、中国科学院大学、中科院声学所、西工大、科大讯飞等国内顶尖院校和研究所。 本文将介绍这 4 篇论文解决的核心场景问题和技术方案,分享火山引擎流媒体音频团队在语音增强,基于 AI编码器,回声消除和无监督自适应语音增强领域的思考与实践。 基于可学习梳状滤波器的轻量级语音谐波增强方法 论文地址:https://www.isca-speech.org/archive/interspeech_2023/le23_interspeech.html 背景 受限于时延和计算资源,实时音视频通信场景下的语音增强,通常使用基于滤波器组的输入特征。通过梅尔和 ERB等滤波器组,原始频谱被压缩至维度更低的子带域。在子带域上,基于深度学习的语音增强模型的输出是子带的语音增益,该增益代表了目标语音能量的占比。然而,由于频谱细节丢失,在压缩的子带域上增强的音频是模糊的,通常需要后处理以增强谐波。RNNoise 和 PercepNet 等使用梳状滤波器增强谐波,但由于基频估计以及梳状滤波增益计算和模型解耦,它们无法被端到端优化;DeepFilterNet 使用一个时频域滤波器抑制谐波间噪声,但并没有显式利用语音的基频信息。针对上述问题,团队提出了一种基于可学习梳状滤波器的语音谐波增强方法,该方法融合了基频估计和梳状滤波,且梳状滤波的增益可以被端到端优化。实验显示,该方法可以在和现有方法相当的计算量下实现更好的谐波增强。 模型框架结构 基频估计器(F0 Estimator) 为了降低基频估计难度并使得整个链路可以端到端运行,将待估计的目标基频范围离散化为 N 个离散基频,并使用分类器估计。添加了 1 维代表非浊音帧,最终模型输出为 N+1 维的概率。和 CREPE 一致,团队使用高斯平滑的特征作为训练目标,并使用 Binary Cross Entropy 作为损失函数: 可学习梳状滤波器(LEarnabLECombFiLtEr) 对上述每一个离散基频,团队均使用类似 PercepNet 的 FIR 滤波器进行梳状滤波,其可以表示为一个受调制的脉冲串: 在训练时使用二维卷积层(Conv2D)同时计算所有离散基频的滤波结果,该二维卷积的权重可以表示为下图矩阵,该矩阵有 N+1 维,每一维均使用上述滤波器初始化: 通过目标基频的独热标签和二维卷积的输出相乘得到每一帧基频对应的滤波结果: 谐波增强后的音频将和原始音频加权相加,并和子带增益相乘得到最后的输出: 在推断时,每一帧仅需要计算一个基频的滤波结果,因此该方法的计算消耗较低。 模型结构 团队使用双路卷积循环神经网络(Dual-Path Convolutional Recurrent Network, DPCRN)作为语音增强模型主干,并添加了基频估计器。其中 Encoder 和 Decoder 使用深度可分离卷积组成对称结构,Decoder 有两个并行支路分别输出子带增益 G 和加权系数 R。基频估计器的输入是 DPRNN 模块的输出和线性频谱。该模型的计算量约为 300 M MACs,其中梳状滤波计算量约为 0.53M MACs。 模型训练 在实验中,使用 VCTK-DEMAND 和 DNS4 挑战赛数据集进行训练,并使用语音增强和基频估计的损失函数进行多任务学习。 实验结果 流媒体音频团队将所提出的可学习梳状滤波模型和使用 PercepNet 的梳状滤波以及 DeepFilterNet 的滤波算法的模型进行对比,它们分别被称作 DPCRN-CF、DPCRN-PN 和 DPCRN-DF。在 VCTK 测试集上,本文提出的方法相对现有方法均显示出优势。 同时团队对基频估计和可学习的滤波器进行了消融实验。实验结果显示,相对于使用基于信号处理的基频估计算法和滤波器权重,端到端学习得到的结果更优。 基于 Intra-BRNN 和 GB-RVQ 的端到端神经网络音频编码器 论文地址:https://www.isca-speech.org/archive/pdfs/interspeech_2023/xu23_interspeech.pdf 背景 近年来,许多神经网络模型被用于低码率语音编码任务,然而一些端到端模型未能充分利用帧内相关信息,且引入的量化器有较大量化误差导致编码后音频质量偏低。为了提高端到端神经网络音频编码器质量,流媒体音频团队提出了一种端到端的神经语音编解码器,即 CBRC(Convolutional and Bidirectional Recurrent neuralCodec)。CBRC 使用 1D-CNN(一维卷积) 和 Intra-BRNN(帧内双向循环神经网络) 的交错结构以更有效地利用帧内相关性。此外,团队在 CBRC 中使用分组和集束搜索策略的残差矢量量化器(Group-wiseand Beam-search Residual Vector Quantizer,GB-RVQ)来减少量化噪声。CBRC 以 20ms 帧长编码16kHz 音频,没有额外的系统延迟,适用于实时通信场景。实验结果表明,码率为 3kbps 的 CBRC 编码语音质量优于 12kbps 的 Opus。 模型框架结构 Encoder 和 Decoder 网络结构 Encoder 采用 4 个级联的 CBRNBlocks 来提取音频特征,每个 CBRNBlock 由三个提取特征的 ResidualUnit 和控制下采样率的一维卷积构成。Encoder 中特征每经过一次下采样则特征通道数翻倍。在 ResidualUnit 中由残差卷积模块和残差双向循环网络构成,其中卷积层采用因果卷积,而 Intra-BRNN 中双向 GRU 结构只处理 20ms 帧内音频特征。Decoder 网络为 Encoder 的镜像结构,使用一维转置卷积进行上采样。1D-CNN 和 Intra-BRNN 的交错结构使 Encoder 和 Decoder 充分利用 20ms 音频帧内相关性而不引入额外的延时。 分组和集束搜索残差矢量量化器 GB-RVQ CBRC 使用残差矢量量化器(Residual Vector Quantizer,RVQ)将编码网络输出特征量化压缩到指定比特率。RVQ 以多层矢量量化器(Vector Quantizer,VQ)级联来压缩特征,每层 VQ 对前一层 VQ 量化