您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[火山]:火山引擎视频云实践精选集(2024版) - 发现报告

火山引擎视频云实践精选集(2024版)

文化传媒2025-01-25-火山发***
AI智能总结
查看更多
火山引擎视频云实践精选集(2024版)

火山引擎视频云 实践精选集 面向体验驱动增长 2024版 AI/大模型+音视频技术实践和前沿探索 卷首语 FOREWORD 2024年,随着生成式AI、多模态大模型、全景直播、三维重建等技术的共同推动,它们正携手将我们从流畅、实时、高清的数字视频世界带入更智能、更交互、更沉浸的AI视频世界。在这个智能新视界里,用户体验也将经历全方位的变革与重构: 首先,内容生产将从UGC/PGC发展到AIGC,伴随AI视频生成模型以及智能工具的逐渐普及,会极大降低视频生产的门槛,内容的生产量将呈几何倍数的增长; 同时,由于音视频承载了更多的信息和交互,进而演变成人类的新的“通用”语言,交互形式从以单向信息传递为主,更迭到更丰富、更生动的音视频交流方式为主; 随着AI的深度学习和自我进化,交互模式也正在从过去的人机交互、人人交互,迈向一个人与AI融合交互的新时代; 最后,用户的交互空间也在从2D、3D,VR拓展到了虚拟世界与现实世界的无缝融合。 而技术从来不曾孤单,它在无尽的探索中寻找同伴,渴望得到协助,一同照亮未知的领域。共享与进化,是它永恒的方向,每一步前行都承载着时代的梦想,引领我们共同迈向一个更加美好的未来。 火山引擎视频云,基于抖音集团音视频技术沉淀,致力于打造“面向体验驱动增长”的视频云,积极探索将豆包大模型和AI能力与音视频能力相结合,帮助企业端到端提升视频智能化能力,实现体验的全面提升与业务的创新增长。 特别推出《火山引擎视频云实践精选集》2024版,收录了全年数位音视频专家倾情出品的29篇技术深度Blog,期待给各位同仁带去一些思考和启发的同时,也能在AI视频世界到来的今天,一起探索和推动AI/大模型和音视频技术融合和进化。 精选集内容将围绕火山引擎视频云在过去一年的AI/大模型&音视频技术实践,包括: ●ASIC编码器、VR处理、深度学习、质量评估等全球前沿的论文精选; ●对话式AI、6DoF互动、场景重建、超低延时等前沿技术的落地实践; ●AI+教育、私域直播、短剧出海、VR大空间等行业场景的最佳实践; CONTENTS 目录 1 国际认可 INTERNATIONALLYRECOGNIZED 火山引擎夺得AIM2024大赛视频显著性预测赛道冠军001火山引擎夺得AIM2024大赛超分质量评估赛道冠军005火山引擎联合中国科学技术大学IMCL团队夺得NTIRE大赛盲压缩图像增强赛道冠军009火山引擎国际深度学习图像压缩挑战赛蝉联冠军013 CVPR2024满分论文|Deformable3DGaussian:017基于可变形3D高斯的高质量单目动态重建新方法 CVPR2024|ModularBlindVideoQualityAssessment:模块化无参视频质量评估024深度拆解:CVPR2024CAMixerSR动态注意力分配的超分辨率加速框架030 火山引擎多媒体实验室VR全链路处理传输显示方案036ResVR入选ACMMultimedia2024最佳论文提名 火山引擎论文入选国际会议ACMIMC'24一种面向大规模视频点播系统的算法实验平台042横扫四大赛道,火山引擎斩获MSU世界视频编码器大赛“最佳ASIC编码器”049 2 技术探索 TECHNOLOGYEXPLORATION AI视频时代,如何才能不掉队?053生产、交互、消费全链路升级,开启“三智”视频新时代062豆包大模型支持实时语音通话了!070抖音Android端图片优化实践075在Windows下玩转多媒体处理框架BMF093超低延迟多路径传输:技术演进与大规模业务实践118高质量3DGaussian-Splatting场景重建及低延迟重渲染技术128触摸未来,字节跳动提出6DoF直播创新方案134解题智实融合、音视频交互新挑战,AI2.0时代怎么做?139 火山引擎打通了「AI+硬件」的最后一纳米147全链路革新:火山引擎视频云引领AI新视界155 3 最佳实践 BESTPRACTICE 火山引擎RTC联合乐鑫、移远:智能硬件注入“豆包”,“模”力升级161儿歌点点携手火山引擎,共创儿童成长AI伙伴165龙游神州:揭秘云VR大空间背后的技术魔法169火山引擎升级「社区团购+直播」新玩法助力企业玩转私域电商177火山引擎助推FlexTV短剧乘“云”出海182当慢直播与食品安全相遇,正大集团的视频巡检建设之路185我的伙伴是SoulAI,但我们从不尬聊189详解veImageX助力卓特视觉智能、高效生成设计素材副本203 01 国际认可 INTERNATIONALLYRECOGNIZED 火山引擎夺得AIM2024大赛视频显著性预测赛道冠军 近日,第2024届ECCV联合举办的AIMWorkshop大赛公布比赛结果,在视频显著性预测赛道上,火山引擎多媒体实验室凭借自研的显著性检测算法获得冠军,技术能力达到行业领先水平。 参赛队伍 大赛背景 AIM(AdvancesinImageManipulation)2024是新兴的计算机视觉国际竞赛,每年在模式识别和机器视觉顶级国际会议ECCV上举行。该比赛旨在鼓励学者和研究人员探索计算机视觉中图像分析、增强和恢复的新技术和方法,并且促进学术交流,在计算机视觉领域获得了广泛的关注和参与,吸引了众多高校和业界知名公司参加。 显著性预测任务旨在模拟人类视觉系统,预测图片/视频中人眼关注的区域,为下游各类计算机视觉任务提供引导和辅助信息。视频显著性预测赛道要求参赛者基于1500个视频87w帧共超过4000名用户的眼动追踪数据进行模型训练和验证,视频内容来自youtube和vimeo等网站,内容上涵盖了PGC长视频片段/UGC短视频,语义上包含了游戏、动画、运动、vlog、电视节目等多个场景。最终排名由模型在验证集上的AUC_J、CC、SIM、NSS四项指标单项排名来加权得到,自研方案四项指标排名均取得第一,性能全面领先其他队伍方案。 视频显著性预测赛道结果 冠军算法介绍 显著性预测任务面临的主要挑战: ●眼动数据标注成本高,开源数据集规模有限,无法进行充分的预训练,因而容易导致模型鲁棒性不足 ●人眼的运动和聚焦既受到颜色、对比度等底层图像信号的刺激,也受到大脑感知系统对于场景的理解和推导的影响,因此对于语义复杂的场景,显著性预测难度大大增加 ●随着观看时间的推移,显著区域会产生迁移,并具有一定延时性,需要对其时域特征进行良好的建模 此前方案大部分使用了基于image的骨干网络来进行特征提取,时域建模使用LSTM/GRU或者3D卷积来进行。团队沿用了encoder-decoder架构,整体结构如下图,输入一组RGB视频帧,最终输出显著性图谱。显著性图谱以灰度图表示,像素范围0-255,数值越高代表显著性程度越高。其中,特征编码器为视觉编码器提取视频序列的多层级特征。特征解码器包含特征上采样模块、时序注意力模块、3D卷积、上采样、2D卷积、Sigmoid等模块。 编码器的选择上,选取了针对video的视频基础模型UMT(UnmaskedTeacher)来作为encoder,其网络使用预训练的visionTransformer(ViT)。通过分别提取ViT不同块的输出(第5,11,17,23),可得到不同层级的视频特征,这些特征包含丰富的底层细节和高层语义信息,同时也建模了视频不同帧间的时序关系。 解码器的设计上,采用了类似U-Net的分层上采样结构,在使用3D卷积对编码器特征进行时域降维的同时,进行不同尺度的空域上采样,并将不同层级的特征进行融合。此外,团队引入了时序注意力模块,以应对显著性的时域延迟和场景切换问题。这种设计不仅提升了模型对视频内容的理解能力,也为捕捉动态变化提供了有效支持。 数据处理方面,采用了基于视频内容的train/val划分策略,根据内容特性对数据集进行分组,然后按比例从每个组采样数据来组成最终的训练集。考虑到UMT的输入分辨率较小 (224x224),对标签中的注视点信息进行了膨胀处理(dilate),减少其在下采样过程中的信息丢失,同时清除了离群点以加快收敛速度。 训练策略方面,通过SIM指标将数据划分为简单样本和困难样本,通过增加模型在困难样本上的损失权重,模型得以更加关注那些在训练过程中表现不佳的样本,有效提升了模型的整体性能和泛化能力。 总结 火山引擎多媒体实验室在视频显著性预测领域实现了突破性的进展,并获得了该赛道冠军。显著性预测技术的迭代升级可以帮助技术人员更为准确地预测用户观看行为,为用户观看体验的优化提供重要指引,也有助于推动视频行业向着更加智能化、高效化的方向发展。基于显著性预测的ROI编码和ROI区域增强方案已广泛应用于直播、点播及图片等内部业务场景,并通过火山引擎相关产品面向企业开放。 火山引擎多媒体实验室是字节跳动旗下的研究团队,致力于探索多媒体领域的前沿技术,参与国际标准化工作,其众多创新算法及软硬件解决方案已经广泛应用在抖音、西瓜视频等产品的多媒体业务,并向火山引擎的企业级客户提供技术服务。实验室成立以来,多篇论文入选国际顶会和旗舰期刊,并获得数项国际级技术赛事冠军、行业创新奖及最佳论文奖。 火山引擎是字节跳动旗下的云服务平台,将字节跳动快速发展过程中积累的增长方法、技术能力和工具开放给外部企业,提供云基础、视频与内容分发、大数据、人工智能、开发与运维等服务,帮助企业在数字化升级中实现持续增长。 火山引擎夺得AIM2024大赛超分质量评估赛道冠军 近日,第2024届ECCV联合举办的AIMWorkshop大赛公布比赛结果,在视频超分辨率质量评估赛道上,火山引擎多媒体实验室凭借基于大模型的画质评估算法获得冠军,技术能力达到行业领先水平。 参赛队伍 大赛背景 AIM(AdvancesinImageManipulation)2024是新兴的计算机视觉国际竞赛,每年在模式识别和机器视觉顶级国际会议ECCV上举行。该比赛旨在鼓励学者和研究人员探索计算机视觉中图像恢复和提升的新技术和方法,并且促进学术交流,在计算机视觉领域获得了广泛的关注和参与,吸引了众多高校和业界知名公司参加。 视频超分辨率质量评估赛道比赛结果 近年来视频和图像超分辨率(SR)技术得到了广泛学术研究,同时在短视频业务服务端/客户端中有着广泛的应用,它能够显著提升用户的主观观看体验,提高内容的清晰度和视觉吸引力。为了评估不同超分辨率算法的主观画质提升效果,需要使用图像和视频质量评估指标。然而由于难以捕捉超分辨率引发的复杂多样的增强伪影,传统算法PSNR和SSIM以及其他基于深度学习的方法均被证明无法准确估计超分辨率图像的质量。因此,超分辨率质量评估与普通的图像和视频质量评估任务是有所不同的,本次竞赛旨在针对超分辨率进行专用评估指标的研究,推动这一领域的发展。 冠军算法介绍 超分辨率画质评估的主要挑战在于如何捕捉超分辨率画质算法处理后内容的画质变化因素,相比传统质量评估需要考虑更复杂多样化的处理算法带来伪影/涂抹/过锐等失真类型。由于有限的样本数量和数据集大小,端到端的训练方案无法达到理想效果,经过多轮方案验证,团队最终采用RichQuality-AwareFeature算法方案架构,针对多样化的视觉内容和复杂的失真类型,利用空域模型微调,同时利用丰富离线视频特征库和图像特征库来增强模型的泛化能力。微调模型采用了预训练于LSVQ数据集的SwinTransformer-B作为主干网络来提取空域特征,离线视频特征库包含SlowFast时域特征和Fast-VQA时空联合特征;离线图像特征库提供了全面的帧级特征表示,其中LIQE包含质量感知、失真特定及场景特定的信息,而Q-Align则包含来自多模态模型(MLLM)的强大质量感知特征。最终将可学习和不可学习的特征拼接在一起,经非线性回归层得到预测分数,最终分数通过Sigmoid函数转换为[0-1]范围。 除了算法层面的综合分析设计和数据增广处理等,团队对数据集