2021全国知识图谱与语义计算大会 ChinaConferenceonKnowledgeGraphandSemanticComputing 知识增强的视频语义理解评测总体报告 报告人:汪琦 中国中文信息学会语言与知识计算专委会&百度知识图谱部 视频语义理解是诸多视频智能应用的基础,具有重要的研究意义和实际应用价值。 传统基于感知的视频内容分析技术缺乏语义化理解能力,而充分利用知识图谱的语义化知识并结合多模态学习和知识推理,有望实现深度的语义理解。 知识增强的视频语义理解,期望融合多模态信息,以及NLP、视觉、语音、知识图谱等相关技术,为视频生成刻画其主旨内容的语义标签。 •定义:在感知内容分析的基础上,融合语言、视觉、语音等多模信息,结合知识图谱计算与推理, 为视频生成刻画其主旨内容的语义标签。 •输入:视频数据:包含原始视频(平均时长<1min)及基础感知解析结果(OCR、ASR、人脸识别等) •输🎧:视频语义标签,包括以下两类标签 (a)分类标签:二层分类体系(一级分类33个,二级分类322个) 视频语义标签数据集 (b)语义标签:实体/概念、事件、实体属性等标签 •分类标签:科技-航空航天 •语义标签: •实体/概念:嫦娥5号、探月 •实体属性:嫦娥5号任务历程 •事件:嫦娥5号发射 视频语义标签 𝑡.),𝑡.*,𝑡.+…𝑡.� 本任务采用F1-Measure作为评测指标,通过将输�结果与人工标注集合进行比较来计算F1分值。对于给定的视频,评测集中的标签结果为T(=[𝑡),𝑡*,𝑡+…𝑡𝑁],N为评测集的标签数目,参赛系统预测�的标签结果 为T-= ,M为预测标签数目,计算公式如下: P= ∑i𝗀𝑁,*𝗀�|𝑇g(i)∩𝑇𝑝(j)| ∑i𝗀𝑁,*𝗀�|𝑇g(i)∩𝑇𝑝(j)| ∑ R= 𝐹1= *𝗀� |�(j)| � ∑ i𝗀/ |�(i)| g 2∗�∗� �+� 需要注意本任务会输�两类标签结果(分类标签和语义标签),首先针对每类标签单独计算F1值(即分类标签𝐹1!,语义标签𝐹1"),然后通过加权求和计算最终𝐹1#$𝑛𝑎�,计算公式如下: 𝐹1fi𝑛𝑎�=0.3∗𝐹1�+0.7∗𝐹1� 真实场景 真实场景的视频数据 规模大 视频语义标签数据集 高质量 人工标注数据 •来自百度好看视频、度小视视频数据 •真实场景、UGC视频内容 •大规模的中文视频语义标签开放数据集 •4.8万训练集、1万开发集、1万评测集 •视频分类标签准确率96.71% •视频语义标签准确率95.12% •知识库实体重复率<5% 百度飞桨—开源基线系统 •基于飞桨PaddlePaddle的开源基线系统,助力参赛者入门和快速迭代 •基线:https://github.com/PaddlePaddle/Research/tree/master/KG/DuKEVU_Baseline 在线排名机制提升参与度 •依托biendata平台托管评测,提升整体评测水平 •A/B榜设置 •A榜:初赛/效果调优 •B榜:最终评测榜 影响广泛、参与度高 •共吸引198支队伍报名参赛 •共222名参赛者,分布于3个国家 •覆盖全球45所高校/科研机构和71家企业 •共48支队提交结果,累计提交结果670次 140 120 100 80 报名团队中参赛者统计 提交团队中参赛者分布 7% 88 115 60 40 19 20 0 37% 56% 工业界学术界其他 工业界学术界其他 企业:微软、阿里巴巴、腾讯,太平洋保险等 院校:清华大学、北京大学、复旦大学、浙江大学、纽约大学等海内外知名高校和科研机构 •评测初赛榜共持续9周,任务效果相对基线提升30.34%(A榜),提升显著。 -基线系统F1=0.37153 -冠军系统F1=0.48438 初赛榜周次F1值分布图 0.6 0.5 0.4 0.3 0.2 0.1 0 第一周第二周第三周第四周第五周第六周第七周第八周第九周 预训练&多模态融合多任务联合学习 引入预训练模型并融合多模态特征,通过预训练模型提供更好的初始化并加速模型收敛,利用不同模态信息互补性提升模型精度 将多种任务进行联合训练,进而增强模型表示和泛化能力 对抗训练模型集成 通过生成对抗样本,提升模型的鲁棒性 通过融合多个模型的学习能力,提升最终模型表现 优胜系统主要错误分布 •问题分布:分类错误(51%)、无关实体(31%)、实体粒度错误(15%)、属性错误(3%) •分析发现:59.1%的错误结合背景知识能更好解决 样本数量、垂类及效果相关性 •长尾分布:样本数量存在长尾分布 •预测效果差垂类(F1<0.4)的主要原因:样本数量少;泛 生活、泛知识垂类 提交团队中参赛者分布 样本数量及最终效果 1200 45.000% 1000 40.000%35.000% 800 30.000% 31% 3% 600 25.000%20.000% 400 15.000% 51% 200 10.000%5.000% 15% 0 0.000% 健康养生 艺术|文化艺术 亲子母婴 萌宠 旅游|旅行 摩托车 心灵鸡汤 趣味搞笑 军事 广告 纪录片 属性错误分类错误实体粒度错误无关实体训练集样本数量预测F1 •评测决赛榜(B榜)最高F1值=0.51659,Top3获奖团队: 名次 队名 单位 队员列表 指导老师 1中国太平洋保险(集团)股份有限公司 任君翔1 2小红书科技有限公司 张鹏涛2 第一名 CPIC 3蚂蚁智能服务团队4西南交通大学 郑少棉3杨平4 徐国强1 5复旦大学 曹辰捷5 吕政伟 雷涛 第二名 ccks2021_half 车智互联(北京)科技有限公司 石智中 杨雷 梁霄 刘多星 第三名 石头哥 1 叶振旭1曹圣明1 2 •技术创新奖获奖团队: 队名单位 队员列表 指导老师 1中国太平洋保险(集团)股份有限公司 任君翔1 2小红书科技有限公司 张鹏涛2 CPIC3蚂蚁智能服务团队 4西南交通大学 郑少棉3 杨平4 徐国强1 5复旦大学 曹辰捷5 腾讯科技(深圳)有限公司 2MicrosoftResearchIreland 张耀元 竞赛总结 •发布面向真实场景、大规模的中文视频语义标签理解数据集 •198支队伍报名参赛,覆盖全球45所高校/科研机构和71家企业,累计收到提交结果670份 •任务效果相对基线,提升30%以上,有效推动相关技术发展 未来突破方向 •视频语义理解向细粒度、结构化、语义化表达发展 •多模态融合、对齐 •知识增强与推理