行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

科技动态2024年第3期（总第30期）

2024-08-05 - ABP 华仔

摘要

AI

腾讯联合清华、港科大发布全新图生视频模型：推出“Follow-Your-Click”模型，用户通过点击图像区域和提供动作提示词生成动画视频，实现精准控制图像特定部分的动画效果。
Meta 发布实时 3D 场景重建 AI 视觉模型：推出“SceneScript”模型，利用可编程语言实时重建 3D 场景，集成至头显设备改善混合现实交互体验。
Gcore 推出可快速生成字幕的 AI 语音识别系统：推出 AI ASR 系统，支持超过 100 种语言的字幕快速生成，无需选择和微调 AI 模型，帮助内容所有者吸引全球观众。
AI 超写实数字人“厘里”亮相真人秀节目：阿里 AI 数字人“厘里”在真人秀《盒子里的猫》中首次亮相，展示超写实形象和自然交互能力，为节目带来新表现元素，展示 AI 数字人在娱乐产业中的潜力。
AI 音乐生成技术迎突破：昆仑万维“天工 SkyMusic”和 Suno“Suno V3”相继发布，支持生成中文歌曲和多种音乐风格，AI 生成音乐技术或成为广电视听和影视制作的重要辅助工具。

制作

巴黎 2024 奥运频道将采用云制播方案直播火炬传递：France.tv 频道采用云 +5G/ 星链网络综合方案，实现超大型活动的端到端云制播，提供高效、绿色的内容生产工作流模式。
优酷推出行业首款影视制作车：提供远程监看、现场剪辑、后期制作和跨地域协作等功能，提升剧组拍摄效率，革新影视行业的工作流程。
谷歌推出新 JPEG 编码库：推出 JpegLi 编码库，图像压缩效率最高提升 35%，改变处理和分享图像的方式，对数字媒体等行业产生深远影响。

传输

上海电信成功部署 50G-PON 万兆云宽带示范小区：小区用户可体验下行 10000M/ 上行 1000M 的万兆云宽带服务，助力上海建成“全球双万兆城市”。
英伟达推出 6G 研究云平台：推出以 AI 为核心的 6G 研究云平台，集成空中 6G 数字孪生系统和软件定义的 RAN 技术，加速 6G 研发与应用。
法国运营商 TDF 推进 DAB+ 数字广播信号覆盖：成功部署 100 个新的 DAB+ 发射台，覆盖超过 55% 的法国公民，DAB+ 数字广播技术正在法国全境范围内逐步普及。
英国 ImaginaryPictures 推出全息传送通讯服务：利用高速宽带和 5G 网络以及全息显示器，将人和产品的 3D 模型实时传输至任何目的地，应用于会议、活动、产品展览和体育赛事等。
多功能视频编码 VVC 拟被纳入 ATSC 3.0 标准：ATSC 正考虑将 VVC 纳入 ATSC 3.0 标准，作为 HEVC 之外的编码选项，助力 8K 超高清视频广播与节省带宽。
EBU R 143 网络安全建议书新增软件运营条款：新增针对软件即服务（SaaS）产品的专门条款，强化访问管理、数据保护和安全监控等措施，应对网络安全威胁的复杂性。

终端、业务与应用

美 NBC Universal 将推出四视图观看系统：推出 Peacock Discovery Multiview 系统，让观众同时关注四种不同的运动项目，并自由选择切换至目标赛事进行放大观看。
巴西将于 2025 年实施全新数字电视标准 TV3.0：TV3.0 将结合互联网技术提高电视操作便捷性和效率，提供更高质量、更沉浸式的观看体验，并带来新的商业机会。
德国电视购物广播公司将关停一个超高清频道：关停 QVC2 UHD 频道，集中资源聚焦主频道发展，计划进一步提升主频道的质量。

腾讯联合清华、港科大发布全新图生视频模型....................................07Meta发布实时3D场景重建AI视觉模型.........................................................07Gcore推出可快速生成字幕的AI语音识别系统.......................................08AI超写实数字人“厘里”亮相真人秀节目...............................................08AI音乐生成技术迎突破，两款模型相继发布...........................................09 制作巴黎 2024奥运频道将采用云制播方案直播火炬传递..............................09优酷推出行业首款影视制作车.....................................................................10谷歌推出新 JPEG 编码库，图像压缩效率最高提升 35%........................10 传输Transmission 上海电信成功部署50G-PON万兆云宽带示范小区.................................11英伟达推出6G研究云平台，推动6G技术研发.............................................11 法国运营商TDF推进DAB+ 数字广播信号覆盖............................................12英国ImaginaryPictures推出全息传送通讯服务...............................................12多功能视频编码VVC拟被纳入ATSC3.0标准..............................................13EBUR143网络安全建议书新增软件运营条款...............................................13 终端业务与应用Terminals,Services,andApplications 美NBCUniversal将推出四视图观看系统...................................................14巴西将于2025年实施全新数字电视标准TV3.0............................................14德国电视购物广播公司将关停一个超高清频道.......................................15 摘要 AIArtificialIntelligence 腾讯联合清华、港科大发布全新图生视频模型腾讯联合清华、港科大发布全新图生视频模型 P07 腾讯联合清华、港科大推出“Follow-Your-Click”图生视频模型，用户可通过简单点击目标区域和提供简短的动作提示词生成动画视频，实现了对图像特定部分的动画精准控制。 Meta 发布实时 3D 场景重建 AI 视觉模型Meta 发布实时 3D 场景重建 AI 视觉模型 P07 Meta 近期推出 AI 视觉模型“SceneScript”，能够利用可编程语言实时且轻量地重建 3D 场景，形状数据具有可解释性。该模型可集成至头显设备，改善混合现实交互体验。 Gcore 推出可快速生成字幕的 AI 语音识别系统Gcore 推出可快速生成字幕的 AI 语音识别系统 P08 欧洲云服务提供商 Gcore 推出其自动语音识别系统 AI ASR。该系统采用托管云服务技术，支持超过 100 种语言的字幕快速生成，摆脱了其他语音识别服务需要选择和微调 AI 模型的繁琐过程，有望帮助内容所有者吸引全球观众、扩大受众人群。 AI 超写实数字人“厘里”亮相真人秀节目AI 超写实数字人“厘里”亮相真人秀节目 P08 阿里 AI 数字人“厘里”亮相真人秀《盒子里的猫》，成为国内超写实数字人在真人秀节目中的首次应用。“厘里”高度逼真的形象、自然的交互能力，为节目带来了新的表现元素，展示了 AI数字人在娱乐产业中的巨大潜力。 AI 音乐生成技术迎突破，两款模型相继发布AI 音乐生成技术迎突破，两款模型相继发布 P09 近期，两款 AI 音乐生成工具——“天工 SkyMusic”和“SunoV3”相继发布。前者支持生成中文歌曲，且歌曲人声逼真度高，歌词段落情绪变化清晰；后者能在短时间内根据用户要求完成创作，并支持指定 AI 歌手音色。AI 生成音乐技术或将成为广电视听和影视制作的一项重要辅助工具。摘要制作Making 巴黎 2024 奥运频道将采用云制播方案直播火炬传递巴黎 2024 奥运频道将采用云制播方案直播火炬传递 P09 巴黎 2024 奥运频道将于 5 月 8 日正式上线，并与 TVU 合作采用云 +5G/ 星链网络综合方案，实时直播巴黎奥运火炬传递，实现超大型活动的端到端云制播。优酷推出行业首款影视制作车优酷推出行业首款影视制作车近日，优酷展示了行业首款影视制作车，可实现远程监看、现场剪辑、后期制作和 AB 组跨地域协作等。该车提供的一站式制作方案，使传统片场工作更加一体化、数字化、智能化。谷歌推出新 JPEG 编码库，图像压缩效率最高提升 35%谷歌推出新 JPEG 编码库，图像压缩效率最高提升 35% P10 谷歌推出的新型 JPEG 编码库 JpegLi，在保持图像高质量的同时压缩效率最高可提升 35%。Jpegli 的推出预测将改变处理和分享图像的方式，并对需要大量图像处理的行业产生深远影响。传输Transmission 上海电信成功部署 50G-PON 万兆云宽带示范小区上海电信成功部署 50G-PON 万兆云宽带示范小区上海电信成功部署了首个基于 50G-PON 技术的“万兆云宽带示范小区”，小区用户可在家中体验下行 10000M/ 上行 1000M 的万兆云宽带服务。此举将助力上海 2026 年建成以 5G-A 和万兆光网为标志的“全球双万兆城市” 。英伟达推出 6G 研究云平台，推动 6G 技术研发英伟达推出 6G 研究云平台，推动 6G 技术研发 P11 英伟达推出以 AI 为核心的 6G 研究云平台，该平台集成空中 6G数字孪生系统，结合物理精确模拟和软件定义的 RAN 技术，为6G 网络的定制、编程和测试提供支持，加速 6G 研发与应用。法国运营商 TDF 推进 DAB+ 数字广播信号覆盖法国运营商 TDF 推进 DAB+ 数字广播信号覆盖 P12 法国运营商 TDF 成功在本土部署 100 个新的 DAB+ 发射台，使得超过 55% 的法国公民能够接收到 DAB+ 数字广播信号。法国境内已有超过 550 家电台采用 DAB+ 数字广播，DAB+ 数字广播技术正在法国全境范围内逐步普及。摘要英国 Imaginary Pictures 推出全息传送通讯服务英国 Imaginary Pictures 推出全息传送通讯服务 P12 英国视觉特效公司 Imaginary Pictures 推出全息传送通讯服务，能够利用高速宽带和 5G 网络以及洛杉矶科技公司 Proto 的全息显示器，将人和产品的高质量 3D 模型实时传输至任何目的地。该服务已应用于多类现场活动及体育赛事。多功能视频编码 VVC 拟被纳入 ATSC 3.0 标准多功能视频编码 VVC 拟被纳入 ATSC 3.0 标准 P13 美国广播标准协会与 ATSC 正考虑将 VVC 纳入 ATSC3.0 标准，作为 HEVC 之外的编码选项，助力 8K 超高清视频广播与节省带宽。VVC 目前正接受评估，下半年 ATSC 将投票正式决定。 EBU R 143 网络安全建议书新增软件运营条款EBU R 143 网络安全建议书新增软件运营条款 P13 欧洲广播联盟在更新的 EBU R 143 网络安全建议书新增了软件运营（SaaS）条款，要求强化访问管理、数据保护和安全监控等措施，以应对网络安全威胁的复杂性和广播行业对云服务的依赖。终端、业务与应用Terminals,Services,andApplications 美 NBC Universal 将推出四视图观看系统美 NBC Universal 将推出四视图观看系统 P14 美国 NBC Universal 集团将推出增强型四视图观看系统，让观众能够同时关注四场不同体育比赛，并在屏幕上自由选择、切换至目标赛事进行放大观看。该系统可在智能电视、流媒体设备、网络浏览器和平板电脑上提供此类多视图体验。巴西将于 2025 年实施全新数字电视标准 TV3.0巴西将于 2025 年实施全新数字电视标准 TV3.0 P14 巴西政府宣布将于 2025 年实施全新数字电视标准 TV3.0。该标准将结合互联网技术提高电视操作便捷性和效率，为观众提供更高质量、更沉浸式的观看体验。巴西政府正积极协调各方力量推进该标准的研究与实施。德国电视购物广播公司将关停一个超高清频道德国电视购物广播公司将关停一个超高清频道 P15 德国电视购物广播公司近日决定关停其超高清频道 QVC2 UHD，集中资源聚焦其主频道 QVC UHD 发展，并计划进一步提升主频道的质量。 AI 1腾讯联合清华、港科大发布全新图生视频模型近日，腾讯混元团队和清华大学、香港科技大学联合推出了名为“Follow-Your-Click”的图生视频模型。该模型让用户仅通过简单点击图像的某个区域并输入关于动画类型和动作的关键词，就能将图像中的静态部分变为动态视频，实现了一种前所未有的创意表达方式。当前的图生视频大模型往往是使整个场景具有动画效果，或者要求用户在提示词中详细描述动画区域和动作，通常无法实现图像特定部分的动画精准控制。而“Follow-Your-Click”克服了上述问题，为用户提供了一种简单而直观的操作方式，支持局部动画和多对象动画生成，可实现“一键点，万物动”的视频生成效果。模型实现时，使用了第一帧掩蔽技术提取用户点击区域的特征，并使用基于流的运动强度控制技术调整动态效果的速度和强度，以实现更加自然和逼真的视频效果。 “Follow-Your-Click”让用户可以轻松地创作自己的影像作品。该模型的推出预期将为影像创作领域带来突破，也为电影、游戏、广告等行业提供新的发展契机。随着图像生成视频等 AIGC 技术的不断发展和完善，将推动多个行业的进步和变革。（信息来源 1：GitHub 网 follow-your-click.github.io）（信息来源 2：腾讯网 new.qq.com） 2Meta 发布实时 3D 场景重建 AI 视觉模型 Meta 公司近期发布了一款名为“SceneScript”的 AI 视觉模型，能够利用可编程语言实时构建 3D 场景。将该模型集成至 Quest 3 头戴设备后可自动检测识别家具等物体，并实现 3D 内容的创建，为用户带来更加流畅和沉浸式的混合现实交互体验。 “SceneScript”利用 AI 和 3D 点云捕获技术进行空间理解，实时推断并生成房间内物体的 3D 形状，并建立 3D 场景。借鉴大语言模型“预测单词”的方法，例如输入“The cat sat on the”，大模型会预测下一个单词可能是“mat”或“floor”，“SceneScript”模型同样通过前序输入内容推断后文，并使用这些建筑学层面的描述快速重建出复杂的室内 3D 环境。该模型高效

点击免费查看完整报告

科技动态2024年第3期（总第30期）

摘要

AI

制作

传输

终端、业务与应用

你可能感兴趣

广电视听科技动态2026年第3期（总第70期）

科技动态2023年第3期(总第3期)

科技动态2025年第3期（总第44期）

科技动态2024年第5期（总第32期）

科技动态2024年第9期（总第36期）

科技动态2024年第14期（总第41期）

科技动态2024年第11期（总第38期）

科技动态2024年第7期（总第34期）

科技动态2024年第2期（总第29期）

科技动态2024年第4期（总第31期）