面向直播和录播场景的AIGC技术与应用研究 广东南方新媒体股份有限公司 GuangdongSouthNewMediaCo.,Ltd. 1 2 3 课题简介应用研究实践下阶段推进思路 一、课题简介 GuangdongSouthNewMediaCo.,Ltd. 考虑到以下问题: •为拓展AIGC技术的适用范围及应用场景,需解决复杂场景给AI算法带来的多方面挑战。 •为进一步降低节目录制、现场直播的人力物力成本,需加强AIGC技术的易用性和稳定性。 一、课题简介 建议: 开展面向直播和录播场景的 AIGC技术与应用研究,在复杂场景建模技术、场景与事件的语义描述、虚实融合计算算法、直播原型系统研究与集成等方面开展研究内容工作,并在实 际播发系统中开展应用示范。 鉴于以下情况: •基于人工智能的内容生成(AIGC)为快捷的视频内容生成提供了技术手段,已经在一些虚拟场景、相对较简单的真实场景中得到应用。 •AIGC在体育节目主持、现场报道等复杂场景中的应用还面临着诸多挑战。 (一)课题名称:面向直播和录播场景的AIGC技术与应用研究 二、应用研究实践 GuangdongSouthNewMediaCo.,Ltd. 沉浸式可交互 全空间自由视点直播技术集成应用 GuangdongSouthNewMediaCo.,Ltd. 沉浸式可交互全空间自由视点直播技术集成应用研究 虚拟视点生成 系统 两路物理视点 五路虚拟视点 研究内容 传统的拍摄 单视点视频编码器 只能编码单一视频流 研究目标 功能目标性能目标 •每两路物理视点生成五路虚 拟视点 •适合于并行计算,转换过程完全自动化 •生成虚拟视点无伪影、无空洞 技术方案 下采样 U-Net 卷积核参数 及掩码矩阵 上采样 中间视点图 像重建 两路物理视点 一路虚拟视点 当前成果 研究内容 完成情况 基本功能 两路物理视点能生成5路虚拟视点 1080p生成时延 130-150ms 4k图像生成时延 800-900ms 测试数据集示例图 对比测试效果 合成的虚拟视点真实物理视点 篮球序列的合成效果 乒乓球序列合成效果 其他AIGC相关的尝试 GuangdongSouthNewMediaCo.,Ltd. 1.视频内容自动剪辑 利用AIGC技术对视频内容进行智能分析和筛选,根据观众的兴趣和喜好,利用包括视频内容分析、目标检测、语音识别、自然语言处理等AIGC技术,包括场景的语义和情节理解分析,自动选取精彩片段,将其剪辑成短小精悍的花絮片段,满足观众快速了解节目内容和精华的需求。 优点: 01可以大大提高剪辑效率和精度,节 省人力和时间成本,同时提高观众 的服务体验。 难点: 021.由于语言的复杂性和画面的多样性, 准确理解文本和视频画面的含义和情感倾 向是技术难点之一。 2.在自动剪辑过程中,如何准确选取精彩片段、如何将多个片段进行合理的拼接和过渡等都是技术难点。 因此,我们目前也在积极与中国传媒大学、华中科技大学和以及一些编转码设备厂家合作,进行相关的研究探索,改进文本理解及情感分析算法和自动剪辑算法,提高剪辑的准确性和艺术性。 2.基于声纹识别的自然语言处理技术实现个性化推荐和用户反馈分析 利用自然语言处理技术对用户的语言进行理解和分析,包括使用者的声音声纹特征,从而识别用户性别及年龄区间,根据用户的语音交互动作识别其兴趣和需求提供个性化的节目推荐和搜索结果。 目前,我们与科大讯飞签署战略合作协议,积极探索和部署基于声纹方面的服务能力研究和应 用落地尝试。 三、下阶段推进思路 GuangdongSouthNewMediaCo.,Ltd. (一)充分发挥公司作为集成播控平台的技术及业务优势,在原有直播点播平台的基础上进行平台升级,满足AR\VR、虚实结合、沉浸式自由视角等高新视频的直播、点播播出需求。借助国内头部高校及科研院所的科研实力,进行创新应用试验。 新媒股份自主打造的全媒体融合云平台具备内容集成及播出控制等全流程能力,已统一支撑公司IPTV、OTT等核心业务。 新媒股份拟基于全媒体融合云平台强大的整合支撑能力,搭建AIGC统一网关,通过统一网关集成多个第三方AIGC能力,打通信号源及点播内容接入、AIGC加工制作、内容审核、播出控制及终端播放全流程,实现AIGC内容在IPTV、OTT业务场景播出。 依托作为广东IPTV集成播控平台以及OTT集成播控平台的技术和平台优势,新媒股份将联合华中科技大学、科大讯飞等重点高校及企业,在IPTV及OTT业务场景下开展全景交互式视频、AI修复、复杂场景下虚实结合虚拟人直播应用等AIGC应用试验,探索更丰富多样视音频观看体验。 (二)加强参与总局中长期项目计划,通过项目课题来加深对AIGC技术的了解和探索 1.面向人工智能生成式视听内容监管技术方法与机制研究2.广电视听行业生成式人工智能技术规范应用研究 重点研究人工智能生成内容鉴别方法,研究人工智能生成视听内容的生成机理和学习策略,建立基于生成模型、内容比对等多维度的鉴别模型,实现对常见人工智能生成视听内容的有效鉴别;针对人工智能生成视听内容的规范监管需求,研究并建立综合管理机制与体系,提出不同应用场景下对人工智能生成内容的监管策略与机制。 结合行业业务需求,调研AIGC技术在内容推荐、个性化体验、视频标注、内容理解、场景生成、视频修复等场景的应用现状和前景,分析语言大模型、视觉大模型、多模态大模型等AIGC技术在视听内容生产、传输分发、呈现交互、监测监管等业务领域中的应用集成和部署方式,结合应用场景提出技术规范化应用和管理建议,为行业安全有效运用AIGC技术提供参考和指引。 (三)与科大讯飞共建联合创新实验室 1.开展面向直播及录播场景下的数字虚拟人技术与应用研究 2.开展基于讯飞星火大模型的AIGC技术与应用研究 谢谢! 请各位专家批评指正! 广东南方新媒体股份有限公司 GuangdongSouthNewMediaCo.,Ltd. A广州市人民北路686号后座F020-26188377 www.snm.gd.cn