火山引擎 火山引擎视频云音视频体验白皮书 目录 摘要03 背景04 音视频体验评估指标体系08 音视频体验评估模型13 评估模型典型值23 音视频体验优化案例27 问题与展望31 附录32 摘要 以抖音为代表的新一代现象级应用的兴起,不仅推动了短视频这一赛道的全面爆发,更培养了用户通过视频表达自我和获取知识的习惯。在视频类应用盛行的背景下,用户对于播放体验的需求与日俱增,他们泻望超高清强交互、更加沉漫式的体验。如果无法满足用户的这些需求,应用的播放时长、留存拉新和业务创新将受到直接影响。然而,尽管用户对音视频体验的需求与日俱增,业界却尚未建立完善的音视频体验评估体系,难以准 确定位影响播放体验的关键因素。 为解决上述问题,本白皮书基于亿级日活跃用户的真实反馈数据和大规模实践经验,提出一套行之有效的音视频体验评估指标和模型,分享火山引擎视频云在音视频体验优化上的典型策路应用和案例,旨在助力企业优化用户体验,从而促进业务增长。 本白皮书的受众涵盖以下人群: 已经或计划布局视频业务且关注用户体验和增长的泛互联网企业运营、 技术、研发、产品等相关人士。 正在探索视频技术与行业场景融合且关注用户体验和业务创新的传统企 业运营、技术、研发、产品等相关人士。 白皮书编委: 王飞,吴佳敏,成彦儒,程镇,旷喻玉,李嘉,李小孟,刘浩,曾寅,赵瑜婉, 林股颖,朱木,顾思懿,石秀娟 03 第一章 背景 1.1技术成熟培养视频消费习惯 1.2视频化趋势重塑互联网体验 1.3晋音视频体验优化助力业务增长 1背景 1.1技术成熟培养视频消费习惯 近年来,随着底层基础设施和关键技术的不断成熟,视频类应用的消费时长占移动互联网应用的比例呈现上升态势。相比单纯的文字、图片或音频,视频以更加直观的方式聚合多维度的信息,能够带来更强的交互性和更为沉漫的体验。社交、资讯、电商、音乐等各类应用部开始将视频类功能视为增强用户粘性的重要手段。据艾瑞咨询研究院的报告显示,2022年中国T0p100应用中,搭载视频类功能(包括点播、直播和实时音视 频三类)的应用比例高达69%。视频类应用的消费时长占移动互联网应用的比例也呈现 上升态势。 2022年中国TOP100APP中搭载视频类功能的应用比例 69%65% TOP00APP(:测(%) 51% 32% 有根频类功能有点据类功能有直插类功胎有实时音视频类功脂 2.TOP100APP为据Usertracker等率台网院行为当测数期(要准及智临:演)流计的2022 图1:中图TOP100股用中照稳系类物期的原用比例 05 1.2视频化趋势重塑互联网体验 从行业来右,视频类应用开始加速渗透到企业的日常经营活动中。全面视频化趋势正在重 塑空间体验、知识传递、直播电商、商业连接等领域的体验: 沉浸式视频正在重塑空间体验,预计2027年AR和VR市场的复合增长率将达到 32.6% ·素质教育、职业教育和教育数字基建等领域正在快速增长,推动了知识传递方式的突破。 ·2022年中国直播带货规模约为3.5万亿元,占据整个网上零售额的25.4%。 ,中国的云视频会议市场在2021年的37亿的基础上持续增长,到2022年已达到 42亿。 空间体验直播电商 ·2D到3D营销方式扩展 ·空间廷展 ·2027年,AR/VR销量的 2022年,中国直播带黄权 模约3.5万亿元,在互联网零 五年复合增长事达到售龄中占比达到25.4% 32.6% 知识传递商业连接 ,素质收育、职业数育和数·提升办公效率 育数字基建等领域正在快速增长,推动了知识传递方式的变 ,中国云视频会议市场从 2021年的37亿持续增加到 2022年的42亿 图2:金面提新化范势多多域体验数据案源:IDC及互联网公开数量 1.3音视频体验优化助力业务增长 在营销方式、信息传播、商业连接和知识传递等业务模式全面转向视频化的趋势下,互联 网用户对音视频体验不断提出更高要求,主要体现在以下几个方面: 超高清化:超高清化主要体现在视频分辨率的提升。移动端视频应用逐渐支持更高分 辨率(如2K、4K甚至更高)的内容源,尤其是移动端平台支持180*、360°全景视 频和自由视角视频的播放,用户对于在手机上观看高于1080D分辨率的内容源有了强烈需求。 06 沉浸感:视频的沉浸感是与平面视频相比最显著的变化。传统平面视频观看通常只提 供有限的固定视角,而空间化视频(如180°、360°全景视频、自由视角视频)可以 让用户通过手机移动端的滑屏和陀螺仪操作选择所需的视角进行观看。 交互化:视频的交互化可从两个方面进行考虑。一方面是用户与视频内容的交互,即通过空间化规频的发展实现用户与视频内容的交互。另一方面是用户与用户之间的交互,例如“一起看”和短视频内容社交。这些交互化的方式以视频内容为媒介,打破用户之间的社交障碍,提升视频观看的趣味性,进一步提升用户的观看体验。 火山引擎视频云一直致力于优化音视频体验,并积累了大量关于用户体验指标和业务指标 之间关联的数据。图3展示了2022-2023年火山引擎视频云体验优化项目在短视频、直播、秀场直播和直播电商场景中取得的成果, 尚短视频>>》> 只直播规频糖1080P>>> 国秀场直播声提覆时10秒>》> 4% 人均观量弊等0.8% 贝直播电商 开启育量均衡功能以 优化音费体验 >>> 人均商品交易总版提开了 以上数据表明,在不同场景下的优化措施均取得显著的成效,用户的音视频体验直接影响 着应用的用户留存和业务增长。然而,在衡量音视频体验需求与业务增长之间的关系时,通常面临以下两大挑战: 挑战一:用户音视频体验的差异导致了业务增长的差异,如何准确衡量音视频体验成 为一个关键问题。 挑战二:体验与成本存在一定的矛盾关系,如何在有限的资源条件下将用户体验最大 化、取得两者间的最佳平衡则是另一个关键挑战。 07 第二章 音视频体验评估 指标体系 2.1音画质指标 2.2流畅度指标 2音视频体验评估指标体系 为帮助厂商准确衡评估音视频体验,火山引擎视频云基于亿级日活跃用户的真实反馈数据、播放器日志数据、多媒体实验室采集数据等,构建了一个标准透明、度量准确、归因全面、验证可靠的OOS指标体系。如图4所示,音画质指标和流畅度指标共同组成 了音视频体验指标体系。 音画质指标流畅度指标用户体验 >》>>>》> 起播播放中播放完成QoE潘放时长完播量缩量完播率访问用户数QoS国音通微描标流畅度翻标 现限分辨率鲁频采样率 鲁频率 起器首模活时 插改卡餐率 首较未启摄率 音画不同步 对比度 亮度 平均seek耗时 精准seek 色彩丰富度 清断度质量分 机型分级 网络分圾 指标 机烦面面昇常率 西4:火山驾高限费体玲泽结招标体高短费 09 2.1音画质指标 下表列出音视频体验指标体系中的音画质指标及其英文全称、缩写和解释: 指标名称 英文全称 英文缩写 指标解释 音频信号每砂的案样东数,根觅果样定理(垂童断持准则)。以48kH的累样率通行累特的高短理上可以达到24kHz的 8prybucuegopny ASR 致止损率,别如,CD的样事为44.1KHz,益止累率最高可达到22.05kHz,超过了人耳可听到的频率范图(20Hz 20kHz), 音紧码率 AudoBrse ABR 每教高的甲比特数,单为bps. 清系度质量分VQScore是文山引室视源云自研的提数质量评 清能度原量分 VideoQueltyScoreVQSC (VQScor) 价算法,VQScore基于多样化主标注择本更动轻量深度学 习方案,更供在UGC根精肥降像场量中更稳定准请的客设清影度净价力,以模伤人费摄发原要来评价据损质量。 PeskSignalPSNR氧片源现物的最大靠号值与转弱后视物速声购方差的比量,道 loNoiteRato营用于者量压统后程%与片源比的质量差异, SructurelSamlarlyIndex SSM查量两蛋数事量象相总程度,主要关注边续相效理相织性,接 提聚多方法评估慰合VideoMulti-methocVMAF一种基于机器学习算法的核预质量评价标,用于评估不图提 AssessmentFusion 对比度CortastCOT 图像中最亮和限编区域之同的比率,取查范图为0到100,较 高的值表示从需别自的需变展次更多,色彩表现更半富,图像的薄源接相细节现更好。 BrghtnetsBTN图像的平均充变值。校大的值衰录较亮,单位为NIT, Set.ralionSAT 表示要象中色的平富程度,原量范图为0到103,教低的量 表示膜色单一 模聚信保比VideoSigralVSNR准量视频中量声的强度,单位为分贝(dB)值落高,表示度声族强. 投级分期率VDF 要量现紧像在单位尺寸内的特更盈,单忙为录素,到如 1280x720的能率表乎报照长速有1280个作系,短选有 720+-88 提相率 VdeoBtrate VBR 每移传送的比持致,单位为bps,通过将需致过程中已需放的报质数要量除众情款时长(不包诺智停和加载时调),计算出 VceoFrameRateVFR每秒量显示的规据面置恢数,单位为fps. 10 2.2流畅度指标 下表列出音视频体验指标体系中的流畅度指标及其英文全称、缩写和解释: 指标英文全称英文缩写说明 FrstFrameTimeFFT 认用产点击播故并始量表须的第一教通面出退之间的耗时, 起格首时范变球着用产等特时风更,体检更比 StarupFolureRetio LWPR 照用户进行摄改损关择作危未看到百物需医就高开的收次款占总摄改次数的比例,首情来起需率题任,用产体检更代, 通放失效率 PlaybackFailurePFR据由需款器内部不可排复的错误导款需失感的摄改次致占息 Rato BufferingRatePBR 量较次激比例。提放失败率超低,用产体验更优 指视物起摄后自手无法下数提验款据为能发重新比错的摄改次较低的卡要率表示更好的用户体差, uogeingbujojingRBTp借录据债后每情款100移提象所经历的票卡覆累计时长。 oer100:Seconds卡时长密组,用产体验要优, 百砂→顿冰 aer100Seoond; 指现频起据后每恶款100移提频所出器的专额次益,卡额次整 RBCP路少,用户体验更统, Auco-Vdeo担音缓和提须进度不匹配的播改次数占总潘放次需的比例,常 SynchronizationAVOSR EmorRarso 见的误象是规频中人他的口型与新到的声鲁之调存在延退,提须不尺争事趋低,用户体验要优。 AVOSTP Aucic-Vidoo智事损致100形实模车均持续约高损膜不网多时间,适据标反 100Seconds 有声无需率Aucio=onlyPlsybackAWVR Rato 指在摄放现能过程中有声盲退发看西面显示的情说发生的据放次数占总播收次数的比例,有声无通车感低,用产体益更, VideoontyPleybeckVWAR备在据收据额过程中有面再显示-总及有声音的情况发生的需收 Rato次数占学摄激次数的比例,有面无严率趋低,用声体检更 提级高面异常率VPER 弱在据教损频过程中出损范据,学屏等异常表净的据放次致占总据致次数的比8,这查导常谨与设备性能或提级转得医量 有关,规报通面异常率起低,用户体治更优, Seak#BJ AverageSeck-ASST指用户控动进图象到斯的据故位置并始落放之间的能时,平均Seok时照所有Soek原作耗时的平. 11 下表列出对流畅度指标产生影响的参数。 参数英文全称英文缩写说明 机型分级DevceLevelDLV高量量投没备的整体性常,可分为高,中、低速机等级。 网络分领NatwokLovelNWLV备量免接值设程中的网练状况,可分为高、中,低网速等级, 提紧编码格VideoCodecVCT常见性摄编码格式落H.264、H.265.VP9等 AudoCodecACT常必的售源编的格善MP3、AA