您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[ABP]:科技动态2024年第3期(总第30期) - 发现报告
当前位置:首页/其他报告/报告详情/

科技动态2024年第3期(总第30期)

2024-08-05-ABP华***
科技动态2024年第3期(总第30期)

AI ArtificialIntelligence 目录CONTENTS 腾讯联合清华、港科大发布全新图生视频模型07 Meta发布实时3D场景重建AI视觉模型07 Gcore推出可快速生成字幕的AI语音识别系统08 AI超写实数字人“厘里”亮相真人秀节目08 AI音乐生成技术迎突破,两款模型相继发布09 制作 Making 巴黎2024奥运频道将采用云制播方案直播火炬传递09 优酷推出行业首款影视制作车10 谷歌推出新JPEG编码库,图像压缩效率最高提升35%10 传输 Transmission 上海电信成功部署50G-PON万兆云宽带示范小区11 英伟达推出6G研究云平台,推动6G技术研发11 法国运营商TDF推进DAB+数字广播信号覆盖12 英国ImaginaryPictures推出全息传送通讯服务12 多功能视频编码VVC拟被纳入ATSC3.0标准13 EBUR143网络安全建议书新增软件运营条款13 终端业务与应用 Terminals,Services,andApplications 美NBCUniversal将推出四视图观看系统14 巴西将于2025年实施全新数字电视标准TV3.014 德国电视购物广播公司将关停一个超高清频道15 摘要 AIArtificialIntelligence P07 P07 P08 P08 腾讯联合清华、港科大推发出布“全F新ol图lo生w-视Yo频ur模-C型lick”图生视频模型,用视频户,可实通现过了简对单图点像击特目定标部区分域的和动提画供精简准短控的制动。作提示词生成动画 Meta发近布期实推时出3ADI场视景觉重模建型AA“IS视ce觉n模eS型cript”,能够利用可编程语型可言集实成时至且头轻显量设地备重,建改3D善场混合景现,实形交状互数体据验具。有可解释性。该模 有望帮助内容所有者吸引全球观众、扩大受众人群。 G欧c洲or云e推服出务可提快供速商生G成co字re幕推的出A其I语自音动识语别音系识统别系统AIASR。该系摆统脱采了用其托他管语云音服识务别技服术务,需支要持选超择过和10微0调种语AI言模的型字的幕繁快琐速过生程成,, 数字人在娱乐产业中的巨大潜力。 A阿I里超写AI实数数字字人人““厘厘里里””亮亮相相真真人人秀秀《节盒目子里的猫》,成为国内超形象写、实自数然字的人交在互真能人力秀,节为目节中目的带首来次了应新用的。表“现厘元里素”,高展度示逼了真的AI P09A近I期音,乐生两成款技AI术音迎乐突生破成,工两具款——模型“相天继发工布SkyMusic”和“SunoV歌3词”段相落继情发绪布变。化前清者晰支;持后生者成能中在文短歌时曲间,内且根歌据曲用人户声要逼求真完度成高创,作听和,影并视支制持作指的定一A项I歌重手要音辅色助。工A具I生。成音乐技术或将成为广电视 摘要 制作Making P09 巴黎2024奥运频道将于用5云月制8播日方正案式直上播线火,炬并传与递TVU合作采用云超大+5型G活/星动链的网端络到综端合云方制案播,。实时直播巴黎奥运火炬传递,实现 P10优近酷日推,出优行酷业展首示款了影行视业制首作款车影视制作车,可实现远程监看、现场剪方案辑,、使后传期统制片作场和工AB作组更跨加地一域体化协、作数等字。化该、车智提能供化的。一站式制作 P10 谷歌推出出的新新J型PEJGPE编G码编库码,库图Jp像eg压Li,缩在效保率持最图高像提高升质3量5的%同时压享图缩像效的率方最式高,可并提对升需3要5%大。量J图pe像gl处i的理推的出行预业测产将生改深远变影处响理。和分 传输Transmission P11 光网为标志的“全球双万兆城市”。 上海电信成功部署了50首G-个PO基N于万5兆0G云-P宽O带N示技范术小的区“万兆云宽带示范万小兆区云”宽,带小服区务用。户此可举在将家助中力体上验海下2行02610年00建0M成/以上行5G-1A00和0M万的兆 P11 P12 英伟达推出以6GA研I为究核云心平的台,6G推研动究6G云技平术台研,发该平台集成空中6G数6G字网孪络生的系定统制,、结编合程物和理测精试确提模供拟支和持软,加件速定义6G的研R发AN与技应用术。,为 技术正在法国全境范围内逐步普及。 法国运营商TTDDFF推成进功D在A本B+土数部字署广1播00信个号新覆的盖DAB+发射台,使得境内超已过有55超%过的5法50国家公电民台能采够用接D收AB到+D数A字B+广数播字,广D播AB信+号数。字法广播国 摘要 P12 英国视Im觉ag特in效ar公y司PicIttmuaregsin推ar出y全Pi息ctu传re送s通推讯出服全务息传送通讯服务,能显够示利器,用高将速人宽和带产和品的5G高网质络量以3及D洛模杉型矶实科时技传公输司至任Pr何ot目o的地。息 该服务已应用于多类现场活动及体育赛事。 P13多美功国能广视播频标编准码协会VV与C拟AT被SC纳正入考A虑TS将C3V.V0C标纳准入ATSC3.0标准,作为VVCHE目V前C之正外接的受编评码估选,项下,半助年力AT8SKC超将高投清票视正频式广决播定与。节省带宽。 P13E欧B洲U广R播14联3网盟络在安更全新建的议EB书U新R增14软3件网运络营安条全款建议书新增了软件运营以(应S对aa网S)络条安款全,威要胁求的强复化杂访性问和管广理播、数行据业保对护云和服安务全的监依控赖等。措施, 终端、业务与应用Terminals,Services,andApplications P14 P14 P15 美国NBNCBUCnUivneirvsearls将将al推集出团四将视推图出观增看强系型统四视图观看系统,让观众能目够标同赛时事关进注行四放场大不观同看。体该育系比统赛,可并在在智屏能幕电上视、自流由媒选体择、设切备、换网至 进该标准的研究与实施。 络浏览器和平板电脑上提供此类多视图体验。 巴西将政于府宣20布25将年于实2施02全5新年数实字施电全视新标数准字T电V3视.0标准TV3.0。该标准高将质结量、合更互沉联浸网式技的术提观高看电体视验。操巴作西便政捷性府和正效积率极,协为调观各众方提力供量更推 德国电视购物广播公司近关日停决一定个关超停高其清超频高道清频道QVC2UHD,集道的中质资量源。聚焦其主频道QVCUHD发展,并计划进一步提升主频 AI 1 腾讯联合清华、港科大发布全新图生视频模型 近日,腾讯混元团队和清华大学、香港科技大学联合推出了名为“Follow-Your-Click”的图生视频模型。该模型让用户仅通过简单点击图像的某个区域并输入关于动画类型和动作的关键词,就能将图像中的静态部分变为动态视频,实现了一种前所未有的创意表达方式。 当前的图生视频大模型往往是使整个场景具有动画效果,或者要求用户在提示词中详细描述动画区域和动作,通常无法实现图像特定部分的动画精准控制。而“Follow-Your-Click”克服了上述问题,为用户提供了一种简单而直观的操作方式,支持局部动画和多对象动画生成,可实现“一键点,万物动”的视频生成效果。模型实现时,使用了第一帧掩蔽技术提取用户点击区域的特征,并使用基于流的运动强度控制技术调整动态效果的速度和强度,以实现更加自然和逼真的视频效果。 “Follow-Your-Click”让用户可以轻松地创作自己的影像作品。该模型的推出预期将为影像创作领域带来突破,也为电影、游戏、广告等行业提供新的发展契机。随着图像生成视频等AIGC技术的不断发展和完善,将推动多个行业的进步和变革。 (信息来源1:GitHub网follow-your-click.github.io) (信息来源2:腾讯网new.qq.com) 2 Meta发布实时3D场景重建AI视觉模型 Meta公司近期发布了一款名为“SceneScript”的AI视觉模型,能够利用可编程语言实时构建3D场景。将该模型集成至Quest3头戴设备后可自动检测识别家具等物体,并实现3D内容的创建,为用户带来更加流畅和沉浸式的混合现实交互体验。 “SceneScript”利用AI和3D点云捕获技术进行空间理解,实时推断并生成房间内物体的3D形状,并建立3D场景。借鉴大语言模型“预测单词”的方法,例如输入“Thecatsatonthe”,大模型会预测下一个单词可能是“mat”或“floor”,“SceneScript”模型同样通过前序输入内容推断后文,并使用这些建筑学层面的描述快速重建出复杂的室内3D环境。该模型高效且轻量,仅需数KB内存即可生成清晰完整的物体几何形状,而且这些形状数据具有可解释性,用户可以轻松理解和编辑,从而进行定制化的调整。 随着虚拟现实、增强现实等技术的不断发展,对高质量3D模型的需求也在持续增长。“SceneScript”的出现,为这些领域提供了更为高效、便捷的建模工具,有望推动整个行业的技术进步和应用拓展。 (信息来源1:Cryptopolitan网www.cryptopolitan.com) (信息来源2:IT之家www.ithome.com) 3 Gcore推出可快速生成字幕的AI语音识别系统 近日,欧洲知名的国际云和边缘解决方案提供商Gcore宣布推出其人工智能自动语音识别系统--AIASR。该系统采用先进的托管云服务技术,能够支持超过100种语言的字幕快速生成,摆脱了其他语音识别服务中需要选择和微调AI模型的繁琐过程。 现有自动语音识别服务往往存在速度瓶颈,给内容创作者和所有者带来了沉重的计算资源负担。直播新闻和体育赛事等信息需要快速传达给观众,但当涉及多种语言时,传统的字幕生成可能会耗时数小时甚至数天,且准确率难以保证。相比之下,Gcore的AIASR系统展现出了卓越的性能,能够在10分钟内为1小时的视频内容生成字幕,且通常可实现4%-5%的单词错误率,在某些情况下,准确率甚至超过人类翻译。此外,AIASR还允许用户根据特定语言或主题领域选择开源自动语音识别模型,以进一步提升字幕内容准确性。 该系统有望帮助广播公司、视频点播、直播和企业内容所有者接触新的全球受众,从而为听障者或不同语言地区的用户提供服务。 (信息来源:先进电视网advanced-television.com) 4 AI超写实数字人“厘里”亮相真人秀节目 近日,阿里巴巴旗下的AI数字人“厘里”在综艺节目《盒子里的猫》中首次亮相,这是国内超写实数字人在真人秀节目中的首次应用。在节目中,“厘里”以出题官的角色出现,其高度逼真的形象和自然的交互能力,为节目带来了新的表现元素。 “厘里”的形象是通过高精度3D扫描技术构建的,它能够捕捉并重现人物面部和身体细节,经过数字化重建,能达到拟真人的效果。通过计算机动画和渲染技术,“厘里”具有丰富细腻的表情和流畅自然的动作。同时,通过接入语义大模型“通义星尘”,借助深度学习模型,经过大量数据训练,“厘里”还具备自然语言处理和对话能力。这就赋予了“厘里”形象以生命力,能与观众实时互动。在录制过程中,“厘里”的表情和动作自然逼真, 展现出了与真人相似的表现力。后续,通过AI算法的优化和持续训练,“厘里”的表演技巧能不断提升。这一创新不仅为综艺节目提供了新的表现形式,也展示了AI数字人在娱乐产业中的巨大潜力。随着技术的不断成熟,相信数字人将能为观众带来更加多元化的娱乐体验。 (信息来源:快科技网news.mydrivers.com) 5 AI音乐生成技术迎突破,两款模型相继发布 随着人工智能技术的不断进步,使用AI生成音乐逐渐成为现实,并开始对音乐创作方式产生影响。近期,两款AI音乐生成工具——昆仑万维的“天工SkyMusic”和AI初创公司Suno的“SunoV3”相继发布,引起了音乐界的关注。 “天工SkyMusic”是国内首个公开可用的AI音乐生成大模型,基于昆仑万维的“天工3.0”超级大模型构建