知识增强的视频语义理解评测总体报告2021全国知识图谱与语义计算大会China Conference on Knowledge Graph and Semantic Computing报告人:汪琦中国中文信息学会语言与知识计算专委会&百度知识图谱部
视频语义理解是视频智能应用的基础,具有重要的研究意义和实际应用价值。传统基于感知的视频内容分析技术缺乏语义化理解能力,而充分利用知识图谱的语义化知识并结合多模态学习和知识推理,有望实现深度的语义理解。知识增强的视频语义理解,期望融合多模态信息,以及NLP、视觉、语音、知识图谱等相关技术,为视频生成刻画其主旨内容的语义标签。
本次评测集共包括分类标签和语义标签两类,其中分类标签包括二层分类体系中的33个一级分类和322个二级分类,语义标签包括嫦娥5号、探月等实体和事件,以及嫦娥5号任务历程和事件等。定义的视频语义标签在感知内容分析的基础上,融合语言、视觉、语音等多模信息,结合知识图谱计算与推理,为视频生成刻画其主旨内容的语义标签。
评测指标
本次评测采用F1-Measure作为评测指标,通过将输出结果与人工标注集合进行比较来计算F1 分值。对于给定的视频,评测集中的标签结果为T(={),ㅡ,ㅢ,ㅣ,ㅤ,ㅱ,},N为评测集的标签数目,参赛系统预测出的标签结果为T-=,ㅡ,ㅢ,ㅣ,ㅤ,ㅱ,},M为预测标签数目,计算公式如下:
P=∑"'(,'+|ㅡ,(i)∩ㅡ-(j)|∑'+|ㅡ-(j)|R=∑"'(,*'+|ㅡ,(i)∩ㅡ-(j)|∑.'/|ㅡ,(i)|㐸1=2∗ㅡ∗ㅜ
技术问题分析
本次评测中大部分参赛系统采用基于预训练模型的多模态信息融合模型,包括NLP、视觉、语音等多个模态,以及知识图谱,提升模型表现。同时,也有部分参赛系统采用对抗性训练技术,以提升模型鲁棒性。
技术问题分析中,部分参赛系统样本数量不够,导致效果不理想,垂类不明显,以及效果不够稳定。