行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

科技动态2024年第8期（总第35期）

2024-09-19 - ABP Daisy.Aldrich

Stability AI 发布秒级单图生 3D 模型

Stability AI 推出图生 3D 模型 Stable Fast 3D，仅需 0.5 秒即可从单张图片生成完整、自然的 3D 模型，并在不同光照下呈现正确颜色。模型自带纹理及其参数，支持精确的 UV 展开，并提供四边形或三角形网格重建功能，便于后期修改。

微软 Azure AI 推出文本转语音虚拟形象服务

微软 Azure AI 推出文本转语音虚拟形象服务，支持将文本转换为人类自然说话的视频。服务提供多种预构建的逼真虚拟形象，支持实时生成和批量处理，按视频长度按秒收费。

心辰 Lingo 端到端语音大模型问世，对标 GPT-4o

西湖心辰推出国内首个端到端语音大模型心辰 Lingo，具备 GPT-4o 级别的语音能力，支持语音识别、情绪感知、对话管理、实时打断和实时指令控制等功能，实现从语音输入到语音反馈的完整交互过程。

商汤携手 SMT 打造基于 AI 动捕的赛事转播方案

商汤科技与 SMT 联合打造基于 AI 动捕的赛事转播方案，在巴黎奥运会射箭赛事转播中应用三维运动捕捉技术与 AR 特效渲染引擎，实现赛事数据采集与可视化转播，并提供 AI 解说。

美国 ASG 集团推出云制作“虚拟转播车”

美国 ASG 集团推出云端制作套件“虚拟转播车”，基于 ASG 虚拟制作控制室，支持公共、私有或混合托管方案，与多家云服务供应商和工具兼容，用户可灵活配置资源。

RADiCAL 发布单摄像头实时无标记动捕方案

RADiCAL 公司发布单摄像头实时无标记动作捕捉解决方案，专注于上半身动捕，支持手指与面部高精度追踪，无需穿戴设备，实现动作捕捉大众化。

国产 1.8 亿像素全画幅 CMOS 图像传感器成功试产

国内企业晶合集成与思特威公司合作推出 1.8 亿像素全画幅 CMOS 图像传感器，具备超高像素、高帧率及超高动态范围，满足 8K 超高清视频拍摄需求，打破国际垄断。

我国 AVS 编码标准首次应用于互联网电视直播

新一代人工智能联盟联合多家 AVS 会员单位开发了一套集成 AVS3-P2 视频、AVS3-P3 音频和 AVS-SMT 智能传输技术的解决方案，在巴黎奥运会期间与总台合作进行直播试点，实现 AVS3 标准在互联网电视上的首次直播应用。

德国 Media Broadcast 启动 5G 广播试点项目

德国 Media Broadcast 启动首个 5G 广播试点项目，旨在通过新技术高效分发电视节目，重点关注传输速度、功耗及节目质量，并计划包含灾害保护预警功能。

法国 TDF 开展基于 5G 广播的电视与广播直播测试

法国电信公司 TDF 开展使用 5G 广播技术在移动设备上进行实时地面数字电视节目和无线电广播的测试，用户可通过手机接收多个电视频道和广播电台，计划三年内实现 DTT 节目通过 5G 广播在移动端的接入。

中国版“星链”项目正式启航

中国发射首批 18 颗 G60 星链卫星，正式启动中国版“星链”项目，计划至 2030 年实现约 1.5 万颗卫星组网，并推进“GW 星座”与“鸿鹄 -3”计划，加速卫星互联网建设。

NVI 技术创新联盟成立，构建视听传输协议新生态

NVI 技术创新联盟成立，包含 21 家广电视听产业链核心单位，标志着我国在音视频传输技术领域迈出重要一步，NVI 技术是一种具有自主知识产权的超低延时传输协议，支持局域网和公网的稳定、低延迟视频数据传输。

NASA 激光通信太空试验实现 4K 视频双向传输

NASA 宣布成功实现了从飞机到国际空间站的 4K 视频双向激光通信传输，该技术提高了通信效率，具有云层穿透能力，保证了复杂天气条件下的信号稳定传输。

谷歌推出 AI 驱动的个性化内容推荐机顶盒

谷歌推出 AI 驱动的下一代个性化机顶盒 Google TVStreamer，支持 4K HDR 及杜比视界和杜比全景声，精准捕捉并分析观众的观看习惯与偏好，为不同家庭成员定制专属的观看内容推荐列表。

BBC 研发部门转型为六大专项创新团队

BBC 研发部门重组为六大核心团队，包括人工智能、媒体和基础三个面向应用研究领域的团队，以及提案、咨询、投资组合和交付三个团队，旨在确保 BBC 能够继续引领媒体行业变革，为观众提供更加个性化、便捷的观看体验。

报告：全球 76% 的听众首选广播来获取音乐

国际唱片业联合会调查显示，全球 76% 的听众首选广播来获取音乐，63% 的听众表示如果没有音乐，他们将不再收听广播；65% 的听众通过独立或车载收音机听音乐。

2030-2040 年 NHK STRL 将专注于沉浸式媒体研发

日本 NHK STRL 更新了《2030-2040 年未来愿景（2024 年版）》，专注于沉浸式媒体领域，重点研发内容制作与呈现技术，以提供身临其境的虚拟空间体验。

Stability AI 发布秒级单图生 3D 模型.............................................07微软 Azure AI 推出文本转语音虚拟形象服务..................................................07心辰 Lingo 端到端语音大模型问世，对标 GPT-4o...................................08 制作商汤携手 SMT 打造基于 AI 动捕的赛事转播方案....................................08美国 ASG 集团推出云制作“虚拟转播车”....................................................09RADiCAL 发布单摄像头实时无标记动捕方案................................................09国产 1.8 亿像素全画幅 CMOS 图像传感器成功试产......................................10我国 AVS 编码标准首次应用于互联网电视直播............................................10 传输德国 Media Broadcast 启动 5G 广播试点项目..............................................11法国 TDF 开展基于 5G 广播的电视与广播直播测试......................................11中国版“星链”项目正式启航.........................................................................12NVI 技术创新联盟成立，构建视听传输协议新生态......................................12NASA 激光通信太空试验实现 4K 视频双向传输............................................13 终端与应用谷歌推出 AI 驱动的个性化内容推荐机顶盒..............................................13TikTok 正式登陆搭载 whaleOS 3 系统的电视.................................................14报告：全球 76% 的听众首选广播来获取音乐...........................................142030-2040 年 NHK STRL 将专注于沉浸式媒体研发..................................15 摘要 A IArtificial Intelligence Stability AI 发布秒级单图生 3D 模型Stability AI 发布秒级单图生 3D 模型 P07 Stability AI 推出图生 3D 模型 Stable Fast 3D，该模型自带纹理及其相应参数，只需 0.5 秒即可从单张图片生成完整、自然的3D 模型，并在不同光照下都能呈现正确的颜色。微软 Azure AI 推出文本转语音虚拟形象服务微软 Azure AI 推出文本转语音虚拟形象服务 P07 8 月 24 日，微软 Azure AI 推出文本转语音虚拟形象服务，支持文本转人类自然说话的视频。该服务预构建了多种逼真虚拟形象，并支持实时生成以及批量处理。根据视频长度，将按秒收费。心辰 Lingo 端到端语音大模型问世，对标 GPT-4o心辰 Lingo 端到端语音大模型问世，对标 GPT-4o P08 西湖心辰近日推出国内首个端到端语音大模型心辰 Lingo，其具备 GPT-4o 级别的语音能力，不仅能够语音识别，还具备情绪感知、对话管理、实时打断和实时指令控制等功能，实现了从语音输入到语音反馈的完整交互过程。制作Making 商汤携手 SMT 打造基于 AI 动捕的赛事转播方案商汤携手 SMT 打造基于 AI 动捕的赛事转播方案在巴黎奥运会射箭赛事转播中，商汤科技与 SMT 公司联合打造赛事转播方案，通过 AI 三维运动捕捉技术与 AR 特效渲染引擎，实现赛事数据采集与可视化转播，为观众清晰呈现箭矢运动过程。美国 ASG 集团推出云制作“虚拟转播车”美国 ASG 集团推出云制作“虚拟转播车” P09 美国 ASG 集团推出“虚拟转播车”云端制作套件，其基于 ASG虚拟制作控制室，支持公共、私有或混合托管方案，与多家云服务供应商和工具兼容，用户可灵活配置资源以满足不同制作需求。 RADiCAL 发布单摄像头实时无标记动捕方案RADiCAL 发布单摄像头实时无标记动捕方案 P09 RADiCAL 公司发布单摄像头实时无标记动作捕捉解决方案，专注于上半身动捕，具备手指与面部高精度追踪。该方案无需穿戴设备，让动捕应用更加普及、便捷，实现了动作捕捉大众化。摘要国产 1.8 亿像素全画幅 CMOS 图像传感器成功试产国产 1.8 亿像素全画幅 CMOS 图像传感器成功试产 P10 国内企业晶合集成与思特威公司合作推出了业内首颗 1.8 亿像素全画幅 CMOS 图像传感器，并完成试产。该传感器具备超高像素、高帧率及超高动态范围，满足了 8K 超高清视频拍摄的需求，实现了技术突破，打破了国际垄断。我国 AVS 编码标准首次应用于互联网电视直播我国 AVS 编码标准首次应用于互联网电视直播新一代人工智能联盟联合多家 AVS 会员单位开发了一套集成AVS3-P2 视频、AVS3-P3 音频和 AVS-SMT 智能传输技术的解决方案，该方案在巴黎奥运会期间与总台合作进行了直播试点，实现了 AVS3 标准在互联网电视上的首次直播应用。传输Transmission 德国 Media Broadcast 启动 5G 广播试点项目德国 Media Broadcast 启动 5G 广播试点项目德国广播和媒体服务提供商 Media Broadcast 近日宣布启动首个5G 广播试点项目，旨在通过新技术高效分发电视节目。试点将重点关注传输速度、功耗及节目质量等多个系统参数，并计划包含灾害保护预警功能。法国 TDF 开展基于 5G 广播的电视与广播直播测试法国 TDF 开展基于 5G 广播的电视与广播直播测试 P11 法国电信公司 TDF 开展了使用 5G 广播技术在移动设备上进行实时地面数字电视节目和无线电广播的测试，用户可通过手机接收多个电视频道和广播电台。TDF 计划在三年内实现 DTT 节目通过 5G 广播在移动端的接入。中国版“星链”项目正式启航中国版“星链”项目正式启航 P12 我国于 8 月 6 日发射首批 18 颗 G60 星链卫星，正式启动中国版“星链”项目，计划至 2030 年实现约 1.5 万颗卫星组网，并同时推进“GW 星座”与“鸿鹄 -3”计划，加速卫星互联网建设。 NVI 技术创新联盟成立，构建视听传输协议新生态NVI 技术创新联盟成立，构建视听传输协议新生态 P12 BIRTV 2024 期间，NVI（网络视频接口）技术创新联盟正式成立。NVI 技术是一种具有自主知识产权的超低延时传输协议，支持局域网和公网的稳定、低延迟视频数据传输，可广泛应用于云渲染、云制作等视听场景。摘要 NASA 激光通信太空试验实现 4K 视频双向传输NASA 激光通信太空试验实现 4K 视频双向传输 P13 近日，NASA 宣布成功实现了飞机到国际空间站的 4K 视频双向激光通信传输。该技术提高了通信效率，具有云层穿透能力，保证了复杂天气条件下的信号稳定传输，对未来的深空探索任务具有重要意义。终端与应用Terminals and Applications 谷歌推出 AI 驱动的个性化内容推荐机顶盒谷歌推出 AI 驱动的个性化内容推荐机顶盒 P13谷歌推出 AI 驱动的下一代个性化机顶盒 Google TVStreamer，支持 4K HDR 和杜比技术，能为不同家庭成员 AI 定制推荐列表，并通过 Gemini 提供流媒体内容的摘要和分析，优化观看体验。 BBC 研发部门转型为六大专项创新团队BBC 研发部门转型为六大专项创新团队 P14 BBC 宣布其研发部门将转型为六个专项团队，包括人工智能、媒体和基础三个应用研究领域的团队，及提案、咨询、投资组合和交付三个团队。BBC 此举旨在确保 BBC 能够继续引领媒体行业变革，为观众提供更加个性化、便捷的观看体验。报告：全球 76% 的听众首选广播来获取音报告：全球 76% 的听众首选广播来获取音 P14 国际唱片业联合会调查显示，全球 76% 的听众首选广播来获取音乐，如果没有音乐，63% 的听众选择不再收听广播；65% 的听众通过独立或车载收音机听音乐。系列数据表明了广播在音乐传播方面的高参与度和与流媒体服务的竞争力。 2030-2040 年 NHK STRL 将专注于沉浸式媒体研发2030-2040 年 NHK STRL 将专注于沉浸式媒体研发 P15 日本 NHK STRL 更新了《2030-2040 年未来愿景（2024 年版）》，表示将专注于沉浸式媒体领域，重点研发内容制作与呈现技术，以提供身临其境的虚拟空间体验。 A I 1Stability AI 发布秒级单图生 3D 模型 8 月 2 日，英国开源人工智能公司 Stability AI 推出“Stable Fast 3D”图生 3D 模型，仅需 0.5 秒即可从单张图片生成完整且自然的 3D 模型。该模型改进了其前身模型 TripoSR 的基础架构，在功能和性能方面均有显著增强。 Stable Fast 3D 生成的 3D 模型自带纹理及其相应参数，并提供精确的UV 展开（UV Unwrapping），便于用户后期进行修改。此外，Stable Fast3D 还支持四边形或三角形网格重建功能，允许用户更细致地控制 3D 模型的网格拓扑结构，该功能只需多耗费 100 至 200 毫秒。Stability AI 表示，Stable Fast 3D 能够在生成 3D 模型时尽可能减少原图中主体受光照影响的痕迹，使得生成模型在不同光照环境下都能呈现正确颜色。与 Stability AI 先前的 SV3D 模型相比，StableFast 3D 能够在保证模型精度的前提下将单个模型的推理时间从 10 分钟缩短至 0.5 秒。该模型目前已在 Hugging Face 平台开放，供用户免费试用。（信息来源：Stability AI 官网 stability.ai） 2微软 Azure AI 推出文本转语音虚拟形象服务 8 月 24 日，微软 Azure AI 推出文本转语音（TTS）虚拟形象服务，支持将简单的文本转换为人类自然说话的视频，这是 AI 技术在语音交互领域的又一进展。微软 Azure AI TTS 虚拟形象服务提供了丰富的功能，面向开发者、企业和内容创作者。允许用户使用多种预构建的逼真虚拟形象，并搭配多样化、流畅的自然语音，以实现个性化的互动体验。企业用户还可根据企业品牌形象进行虚拟形象定制，这样按需定制以增强品牌识别度。此外，TTS 虚拟形象服务支持实时生成以及批量处理，以满足不同应用场景的需求。目前，这项服务已在东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部地区上线。定价方面，将根据视频输出的长度计算，即按秒收费。（信息来源：微软官网 techcommunity.microsoft.com） 3心辰 Lingo 端到端语音大模型问世

点击免费查看完整报告

科技动态2024年第8期（总第35期）

Stability AI 发布秒级单图生 3D 模型

微软 Azure AI 推出文本转语音虚拟形象服务

心辰 Lingo 端到端语音大模型问世，对标 GPT-4o

商汤携手 SMT 打造基于 AI 动捕的赛事转播方案

美国 ASG 集团推出云制作“虚拟转播车”

RADiCAL 发布单摄像头实时无标记动捕方案

国产 1.8 亿像素全画幅 CMOS 图像传感器成功试产

我国 AVS 编码标准首次应用于互联网电视直播

德国 Media Broadcast 启动 5G 广播试点项目

法国 TDF 开展基于 5G 广播的电视与广播直播测试

中国版“星链”项目正式启航

NVI 技术创新联盟成立，构建视听传输协议新生态

NASA 激光通信太空试验实现 4K 视频双向传输

谷歌推出 AI 驱动的个性化内容推荐机顶盒

BBC 研发部门转型为六大专项创新团队

报告：全球 76% 的听众首选广播来获取音乐

2030-2040 年 NHK STRL 将专注于沉浸式媒体研发

你可能感兴趣

科技动态2023年第8期(总第8期)

广电视听科技动态-2025年第8期(总第49期）

广电视听科技动态2026年第8期（总第75期）

科技动态2024年第5期（总第32期）

科技动态2024年第9期（总第36期）

科技动态2024年第14期（总第41期）

科技动态2024年第11期（总第38期）

科技动态2024年第7期（总第34期）

科技动态2024年第2期（总第29期）

科技动态2024年第3期（总第30期）