目录CONTENTS AI ArtificialIntelligence StabilityAI发布秒级单图生3D模型07 微软AzureAI推出文本转语音虚拟形象服务07 心辰Lingo端到端语音大模型问世,对标GPT-4o08 制作 Making 商汤携手SMT打造基于AI动捕的赛事转播方案08 美国ASG集团推出云制作“虚拟转播车”09 RADiCAL发布单摄像头实时无标记动捕方案09 国产1.8亿像素全画幅CMOS图像传感器成功试产10 我国AVS编码标准首次应用于互联网电视直播10 传输 Transmission 德国MediaBroadcast启动5G广播试点项目11 法国TDF开展基于5G广播的电视与广播直播测试11 中国版“星链”项目正式启航12 NVI技术创新联盟成立,构建视听传输协议新生态12 NASA激光通信太空试验实现4K视频双向传输13 终端与应用 TerminalsandApplications 谷歌推出AI驱动的个性化内容推荐机顶盒13 TikTok正式登陆搭载whaleOS3系统的电视14 报告:全球76%的听众首选广播来获取音乐14 2030-2040年NHKSTRL将专注于沉浸式媒体研发15 摘要 AIArtificialIntelligence P07 P07 P08 StabilityAI发推布出秒图级生单3图D生模型3DS模ta型bleFast3D,该模型自带纹理及3D其模相型应,参并数在,不只同需光照0.下5秒都能即呈可现从正单确张的图颜片色生。成完整、自然的 微8月软2A4zu日re,A微I推软出A文zu本re转A语I推音出虚文拟本形转象语服音务虚拟形象服务,支持文并本支转持人实类时自生然成说以话及的批视量频处。理该。服根务据预视构频建长了度多,种将逼按真秒虚收拟费形。象, 到语音反馈的完整交互过程。 心西辰湖心Lin辰g近o端日到推端出语国音内大首模个型端问到世端,语对音标大GG模P型T-心4o辰Lingo,其具备对话GP管T-理4o、级实别时的打语断音和能实力时,指不令仅控能制够等语功音能识,别实,还现具了备从情语绪音感输知入、 制作Making P08P09 P09 商在汤巴携黎手奥运SM会T射打箭造赛基事于转AI播动中捕,的商赛汤事科转技播与方S案MT公司联合打造赛实事现转赛播事方数案据,采通集过与可AI视三化维转运播动,捕为捉观技众术清与晰呈AR现特箭效矢渲运染动引过擎程,。 美国ASG集集团团推推出出云“制虚作拟“转虚播拟车转”播云车端”制作套件,其基于ASG虚务供拟应制商作和控工制具室兼,容支,持用公户共可、灵私活有配或置混资合源托以管满方足案不,同与制多作家需云求服。 RADiCAL发公布司单发摄布像单头摄实像时头无实标时记无动标捕记方动案作捕捉解决方案,专注于备,上让半动身捕动应捕用,更具加备普手及指、与便面捷部,高实精现度了追动踪作。捕该捉方大案众无化需。穿戴设 摘要 P10 国内企1.业8亿晶像合素集全成画与幅思CC特M威O公S图司像合传作感推器出成了功业试内产首颗1.8亿像素全高画帧幅率及CM超O高S动图态像范传围感,器满,并足完了成8试K产超。高该清传视感频器拍具摄备的超需高求像,素实、 P10 现了技术突破,打破了国际垄断。 现了AVS3标准在互联网电视上的首次直播应用。 我新国一代AV人S工编智码能标联准盟首联次合应多用家于A互VS联会网员电单视位直开播发了一套集成A方V案S3,-P该2方视案频在、巴AV黎S3奥-P运3会音期频间和与A总VS台-S合MT作智进能行传了输直技播术试的点解,决实 传输Transmission P11 含灾害保护预警功能。 德国广M播ed和ia媒Br体oa服d务ca提st供启商动M5Ged广ia播B试ro点ad项ca目st近日宣布启动首个5重G点广关播注试传点输项速目度,、旨功在耗通及过节新目技质术量高等效多分个发系电统视参节数目,。并试计点划将包 过5G广播在移动端的接入。 P11 法国电TD信F公开司展基TD于F开5G展广了播使的用电5视G与广广播播技直术播在测移试动设备上进行实时多地个面电数视字频电道视和节广目播和电无台线。电TD广F播计的划测在试三,年用内户实可现通D过T手T节机目接收通 P12中我国于“8星月链6”日项发目射正首式批启1航8颗G60星链卫星,正式启动中国版“时推星进链“”G项W目星,座计”划与至“2鸿03鹄0年-3”实计现划约,1.加5速万卫颗星卫互星联组网网建,设并。同 云制作等视听场景。 P12NBIVRIT技V术20创24新期联间盟,成N立VI(,网构络建视频听接传口输)协技议术新创生新态联盟正式成立。N域V网I技和术公是网一的种稳具定有、低自延主迟知视识频产数权据的传超输低,延可时广传泛输应协用议于,云支渲持染局、 摘要 有重要意义。 P13N近A日SA,激N光AS通A信宣太布空成试功验实实现现了4飞K机视到频国双际向空传间输站的4K视频双向激证了光复通杂信天传气输。条该件技下的术信提号高稳了定通传信输效,率对,未具来有的云深层空穿探透索能任力务,具保 终端与应用TerminalsandApplications P13 P14 谷歌推出AAII驱驱动动的的个下性一化代内个容性推化荐机机顶顶盒盒GoogleTVStreamer,支并持通过4KGHeDmRin和i提杜供比流技媒术体,内能容为的不摘同要家和庭分成析员,AI优定化制观推看荐体列验表。, 变革,为观众提供更加个性化、便捷的观看体验。 BBC研宣发布部其门研转发型部为门六将大转专型项为创六新个团专队项团队,包括人工智能、媒体交和付基三础个三团个队应。用BB研C究此领举域旨的在团确队保,B及BC提能案够、继咨续询引、领投媒资体组行合业和 传播方面的高参与度和与流媒体服务的竞争力。 P14报国告际:唱全片球业联76合%会的调听查众显首示选,广全播球来获76取%音的听众首选广播来获取音听众乐通,过如独果立没或有车音载乐收,音63机%听的音听乐众。选系择列不数再据收表听明广了播广;播6在5%音乐的 P152日0本30-N2H04K0S年TRNLH更K新ST了R《L2将03专0注-20于4沉0年浸未式来媒愿体景研(发2024年版)》,表以提示供将身专临注其于境沉的浸虚式拟媒空体间领体域验,。重点研发内容制作与呈现技术, AI 1 StabilityAI发布秒级单图生3D模型 8月2日,英国开源人工智能公司StabilityAI推出“StableFast3D”图生3D模型,仅需0.5秒即可从单张图片生成完整且自然的3D模型。该模型改进了其前身模型TripoSR的基础架构,在功能和性能方面均有显著增强。 StableFast3D生成的3D模型自带纹理及其相应参数,并提供精确的UV展开(UVUnwrapping),便于用户后期进行修改。此外,StableFast3D还支持四边形或三角形网格重建功能,允许用户更细致地控制3D模型的网格拓扑结构,该功能只需多耗费100至200毫秒。StabilityAI表示,StableFast3D能够在生成3D模型时尽可能减少原图中主体受光照影响的痕迹,使得生成模型在不同光照环境下都能呈现正确颜色。 与StabilityAI先前的SV3D模型相比,StableFast3D能够在保证模型精度的前提下将单个模型的推理时间从10分钟缩短至0.5秒。该模型目前已在HuggingFace平台开放,供用户免费试用。 (信息来源:StabilityAI官网stability.ai) 2 微软AzureAI推出文本转语音虚拟形象服务 8月24日,微软AzureAI推出文本转语音(TTS)虚拟形象服务,支持将简单的文本转换为人类自然说话的视频,这是AI技术在语音交互领域的又一进展。 微软AzureAITTS虚拟形象服务提供了丰富的功能,面向开发者、企业和内容创作者。允许用户使用多种预构建的逼真虚拟形象,并搭配多样化、流畅的自然语音,以实现个性化的互动体验。企业用户还可根据企业品牌形象进行虚拟形象定制,这样按需定制以增强品牌识别度。此外,TTS虚拟形象服务支持实时生成以及批量处理,以满足不同应用场景的需求。 目前,这项服务已在东南亚、北欧、西欧、瑞典中部、美国中南部和美国西部地区上线。定价方面,将根据视频输出的长度计算,即按秒收费。 (信息来源:微软官网techcommunity.microsoft.com) 3 心辰Lingo端到端语音大模型问世,对标GPT-4o 西湖心辰近日推出了国内首个端到端语音大模型——心辰Lingo,该模型具备GPT-4o级别的语音能力,不仅能够语音识别,还具备情绪感知、对话管理、实时打断和实时指令控制等功能,实现了从语音输入到语音反馈的完整交互过程,极大地丰富了人机交互的深度和广度。该模型由金科汤姆猫投资,已于8月24日开启内测预约。 在技术上,心辰Lingo语音大模型具备以下三个显著特点:(1)原生语音理解。作为端到端模型,不仅能够识别语音中的文字信息,还能精确捕捉情感、语气、音调等特征,帮助模型全面理解语音内容,从而提升交互体验的自然度和生动性。(2)多种语音风格表达。该模型可以根据上下文和用户指令,自适应地调整语音速度和风格,生成对话、歌唱、相声等语音响应,有效提升模型在不同场景下的灵活性和适应性。(3)语音模态超级压缩。该模型采用具有数百倍语音压缩率的编解码器,在显著降低计算和存储成本的同时帮助模型生成高质量语音内容。 心辰Lingo语音大模型预计将于9月5日正式发布并开放内测,这标志着中国在端到端语音识别技术上的突破,并为企业和开发者探索新的应用场景提供了可能。 (信息来源:IT之家官网www.ithome.com) 制作 4 商汤携手SMT打造基于AI动捕的赛事转播方案 8月5日消息,商汤科技与上海东方传媒技术有限公司(SMT)联合打造了“智慧体育-InnoMotionAI赛事转播升级解决方案”,在2024巴黎奥运会射箭比赛项目赛事转播中,通过三维运动捕捉技术与AR特效渲染引擎,实现了射箭赛事数据采集与可视化转播,并提供AI解说。 射箭比赛中,箭矢在离弦后会受到弓弦弹力影响而发生动态弯曲,并导致在飞行过程中左右摆动。同时刮风、下雨等天气变化,也会影响箭矢的运动姿态。在转播中观众通常只能关注到箭的发射时间点和中靶的时间点,缺乏中间过程的转播。该赛事转播方案通过实时捕捉箭矢特征值,结合AI算法融合得出高精度空间3D坐标,并与SMT的AR渲染引擎对接,实现多元视觉特效的精准叠加,完成真实赛事场景的数字化映射。这是AI三维动捕技术在奥运射箭比赛转播中的首次应用,能为观众解开从张弓搭箭到 一击命中的奥秘,使观众不仅能看到结果,更能看清过程。 此外,商汤与SMT合作开发的该赛事转播方案还应用于本届奥运会乒乓球项目的全程赛事转播,以呈现乒乓球的转速、落点和轨迹特效。 (信息来源:IT之家www.ithome.com) 5 美国ASG集团推出云制作“虚拟转播车” 近日,美国ASG集团在美国本土推出了“虚拟转播车”(VirtualTruck)云端制作套件,以期取代传统转播车。该套件以ASG自研的虚拟制作控制室为基础,提供公共、私有或混合托管的制作方案。现场摄像机视频将直接传输到编码器,然后通过IP传输至集成的云解决方案中。用户可通过AWS(亚马逊云服务)和GCP(谷歌云平台)等云服务供应商托管制作,也可使用Vizrt、GallerySienna、Audinate、Telos、SolidStateLogic和GrassValley等公司的云工具。 该虚拟转播车配备44路输入、8个M/E切换台、8个回放通道、灵活的HTML5或专用图形工作站、64通道立体声、44路总线返送和AES67兼容音频,以及用于现场云服务通信的全配置多通道腰包