AI ArtificialIntelligence 目录CONTENTS 中国首个Sora级视频大模型Vidu发布07 谷歌推出AI视频制作与共享应用GoogleVids07 微软发布可生成逼真说话面部视频的VASA-1模型08 Adobe发布可将视频分辨率提升8倍的AI工具08 阿里推出音频驱动的AI肖像视频生成系统09 制作 Making Arri推出电影级画质现场制作多摄像机系统09 传输 Transmission 我国单模光纤实时传输速率取得新突破10 诺基亚与沃达丰完成PON网络L4S技术试验10 澳大利亚NBN与诺基亚完成多种PON技术的实时网络演示11 美国联邦无线公司推出优质企业级频谱服务11 6G迎来技术遴选关键期,首个标准将于2030年冻结12 中国电信在香港落地发布手机直连卫星业务12 德国启动新一轮5G广播试验13 EBU呼吁建立大规模内容生产中的5G监管框架13 日本实现100Gbps速率6G传输14 诺基亚在欧洲长途网络实现800Gbps单一波长光传输15 终端业务与应用 Terminals,Services,andApplications Meta开放头显操作系统,微软华硕联想等加入合作15 巴黎奥运会将实现8KOTT网络直播16 美国NBC环球公司推出个性化广播电视体验16 摘要 AIArtificialIntelligence P07 P07 P08 P08 P09 中4月国首27个日S,or生a级数视科频技大联模合型清VV华id大u学发发布布中国首个长时长、高一致分性辨、率高高动达态1性08视0P频的大高模清型视V频id内u。容V。idu这支也持是一自键S生or成a长发达布之16后秒全、 球率先取得重大突破的视频大模型。 谷歌推出AI视频制作与应共用享G应oo用gleGoVoidgsl,eV为id个s人和企业用户提供一材库站简式化的视频创制作,与并分在享完体成验后。分用享户可互借动助、G编em辑in的iA视I频和。自带素 微软发亚布洲可研生究成院逼推真出说VA话S面A-部1模视型频,的可VA从SA单-1张模图型像和语音音频片段话生面成部视40频fp。s、512×512分辨率、具有视觉情感表现力的逼真说 Adobe发布可A将I工视具频V分id辨eo率G提ig升aG8AN倍,的通A过I工学具习清晰视频特征、处可理应时用序于关视系频等编机辑制、,增能强够和输修出复高等达领原域始。分辨率8倍的高清视频, 逼真且自然流畅,并能满足不同文化和艺术背景的需求。 阿里推巴出巴音推频出驱AI动肖的像A视I肖频像生视成频系生统成E系M统O,用户上传肖像和音频即接通可过生音成频视信频号。驱EM动O视能频根生据成音,频无时需长预生录成片对段应或长3度D的模视型频,,视直频 制作Making P09 Arri推出电多影摄级像画机质系现统场Al制ex作a多35摄L像ive机,系专统为现场制作设计,具备电制影作级系的统画和面遥质控量设,备支,持能满HD足R不功同能场。景其的集拍成摄了和4制K作摄需像求机。、现场 摘要 传输Transmission P10我中国电模信光研纤究实院时携传手输中速兴率通取讯得和新长突飞破公司,基于单模石英光纤完成单根S+光C+纤L在多单波一段方大向容上量的传速输率实突验破,实12时0单Tb波ps速。率最高达1.2Tbps, P10 P11 诺基亚与沃沃达达丰丰成完功成进P行O了N在网P络ONL4网S络技上术应试用验L4S(低延迟、低网丢通包信和的可延扩迟,展从吞而吐量提)升技视术频的会试议验、。云该游技戏术、能增够强显现著实减等少应互用联的 P11 体验。 需求。 澳利大用利诺亚基亚NB的N平与台诺,基澳亚大完利成亚多运种营P商ONN技BN术在的其实现时网有络光演纤示网络上实示现了了运营10商G、如2何5G轻、松5升0G级和现1有00PGO多N种网P络O以N应技对术不的断实增时长演的示带,宽展 性。 美国联邦无线公司推出优面质向企高业端级企频业谱的服优务质企业级频谱服务,通过灵活为的企业KP提I供监控专以用及的定4G制和化技5G术网支络持,,实从现而更显快著的提响升应业时务间的、可靠更 P1262G02迎4全来球技术6G遴技选术关大键会期强,调首,个2标02准4将年于是260G3技0年术冻遴结选关键期,预计化于终端20、30AI年及冻感结知的应R用el,ea业se界2需1将建成立首协个作机6G制技,术形规成范技。术6共G识将。深 P12中国电信在香港落地发布手机直连卫星业务。用户无需换卡换号即将为可抢享险受救天灾地、融海合上通救信援服等务应,急解通决信蜂提窝供通有信力盲支区持问。题。该业务还 摘要 P13德近国日启,动德新国一媒轮体监5G管广机播构试就验哈雷市的5G广播电视频道试点项目进获准行参了与招,标以,进正一式步启探动索新一5G轮广5播G技广术播在试商验业,应商用业领广域播的公潜司力首。次 P13 P14 P15 EBU呼发吁布建白立皮大书规,模呼内吁容在生5G产媒中体的制5G作监应管用框中架实施统一的监管框架滑。切该换框能架力对等运方营面商提在出频要谱求接,入以、充统分一发使挥用5G条在件视、听专制业作服领务域及的平 潜力。 日本实在现10100G0HGzbp至s速30率0G6HGz传范输围内的高频频段实现了100Gbps的560G0传倍输。目,前是65GG技峰术值仍速处度于的研1发0倍阶,段是,预5计G智20能30手年机实平现均商速用度。 输能力、能效和网络性能,降低了能耗和成本。 诺基亚与欧奥洲地长利途电网信络公实司现合作80,0G在b欧ps洲单长一途波网长络光中传成输功完成了长达PSE12-67s6光公学里器的件80和0GFbPp5s网单络一处波理长器光发传挥输了测重试要。作测用试,中提,升诺了基亚传 终端、业务与应用Terminals,Services,andApplications P15 Meta开宣放布头将显其操Q作ue系st统头,显微操软作华系硕统联更想名等为加“入M合eta作HorizonOS”并新型向设第备三,方同开时放。Me微ta软邀、请华谷硕歌、加联入想生等态纷合纷作计。划基于该系统开发 直播。 P16巴20黎24奥巴运黎会奥将运实会现将8通K过OT搭T载网英络特直尔播至强处理器的8KOTT直播技术60,Mb采p用s传VV输C,标实准现,低将延4迟8G、b高ps分的辨原率始、8毫K秒直级播编信码号压压缩缩的至网4络0- P16 美国NBC环球公司推携出手个合性作化伙广伴播在电AT视S体C验3.0无线频道上推出个性容整化合广、播个电性视化体气验象,信为息用服户务提以供及节更目丰自富动的起内点容播访放问、等超新本功地能化。内 AI 1 中国首个Sora级视频大模型Vidu发布 4月27日上午,在2024中关村论坛年会未来人工智能先锋论坛上,生数科技联合清华大学发布中国首个长时长、高一致性、高动态性视频大模型——Vidu。Vidu不仅能够模拟真实物理世界,还拥有丰富想象力,具备多镜头生成、时空一致性高等特点,这也是自Sora发布之后全球率先取得重大突破的视频大模型,性能全面对标国际顶尖水平,并在加速迭代提升中。 据了解,该模型采用团队原创的Diffusion与Transformer融合的架构U-ViT,支持一键生成长达16秒、分辨率高达1080P的高清视频内容。Vidu能够模拟真实的物理世界,生成细节复杂、并且符合真实物理规律的场景。它还具有丰富的想象力,能够生成真实世界不存在的虚构画面,创造出具有深度和复杂性的超现实主义内容。 此外,Vidu能够生成复杂的动态镜头,不再局限于简单的推、拉、移等固定镜头,而是能够围绕统一主体在一段画面里就实现远景、近景、中景、特写等不同镜头的切换,包括能直接生成长镜头、追焦、转场等效果,给视频注入镜头语言。 作为中国自研视频大模型,Vidu还能理解中国元素,能够在视频中生成例如熊猫、龙等特有的中国元素。 (信息来源:中国新闻网chinanews.com.cn) 2 谷歌推出AI视频制作与共享应用GoogleVids 4月10日,谷歌发布全新AI应用程序GoogleVids,旨在为用户提供一个更轻松、便捷的视频制作和协作共享平台。 Vids能够帮助用户生成视频内容分镜脚本、选择风格、编辑草稿,还提供预录制的旁白功能。在Vids中,用户可以选择自己完成制作工作,也可以利用谷歌的GeminiAI来辅助制作视频初稿,包括构建故事板、编写脚本、将脚本转化为语音,创建可供在视频中使用的图像等。Vids还具有预设模板和丰富的音视频素材库,用户可以通过它们快速创建个性化视频项目。此外,Vids支持项目协作和共享,用户可以在完成创作后导出MP4格式文件,也可以与其他用户分享成果,共享用户可以发表评论、留言,甚至参与编辑视频。Vids极大地简化了视频制作流程,能够为用户提供一站式的视频制作与分享体验。 GoogleVids助力企业和个人用户将视频作为一种更直观的信息共享和 沟通方式,从而带来更高效、便捷的办公体验,如用于工作汇报、产品演示及企业内部的培训指导。随着AI技术的发展,未来办公方式将迎来更多变革和创新。 (信息来源:ITBEAR科技资讯www.itbear.com.cn) 3 微软发布可生成逼真说话面部视频的VASA-1模型 近日,微软亚洲研究院推出全新的VASA-1模型,可从单张图像和语音音频片段生成具有视觉情感表现力的逼真说话面部视频,几乎没有人工痕迹。该模型不仅可以与音频完美同步地生成唇部运动,还可以捕捉广泛的面部细微差别和自然头部运动,生成内容具有强真实感和生动感。 VASA-1模型解耦外观、3D头部姿势和面部动态,可以单独控制和编辑生成的内容。其能够利用NVIDIARTX4090GPU实现高性能的视频生成,支持在线流模式下生成帧率达40fps、512×512分辨率大小的动态短视频,前置延迟仅170ms。而在离线模式下,帧率可以提升到45fps。 VASA-1模型在各个维度上全面优于以前的方法,该模型将在增强教育公平、改善沟通障碍、提供陪伴或治疗支持等方面产生积极的作用。 (信息来源1:Microsoft官网www.microsoft.com) (信息来源2:IT之家www.ithome.com) 4 Adobe发布可将视频分辨率提升8倍的AI工具 近日,Adobe发布了一款名为VideoGigaGAN的AI工具。这款工具能够将模糊、低分辨率的视频转换成清晰、高分辨率的版本,为用户带来前所未有的视觉享受。 VideoGigaGAN的核心突破体现在其出色的上采样能力上,能够输出高达原始分辨率8倍的高清视频。VideoGigaGAN利用生成对抗网络学习清晰视频的特征,并通过时间注意力层精准处理视频帧间的时序关系,从而保证了视频的流畅性和连贯性;通过特征传播模块增强帧间特征的一致性,同时利用抗混叠块有效减少了混叠效应,巧妙避免了颜色异常、线条不均匀等问题;结合抗锯齿技术和高频特征穿梭机制,进一步恢复了视频中的细节和清晰度,有效避免了模糊和失真现象。尽管上采样后细节的视频区域是估计生成的,比如皮肤毛孔和眼部线条等,但VideoGigaGAN依然展现出清晰、锐利的视频生成效果。 VideoGigaGAN的推出不仅标志着视频超分技术的重要突破,更为视频编辑、增强和修复等领域带来了新的可能性。尽管当前该工具仍处于演示阶段,但其卓越性能已引发了业界的广泛关注。 (信息来源:TechXplore网techxplore.com) 5 阿里推出音频驱动的AI肖像视频生成系统 近日,阿里巴巴集团智能计算研究院成功推出音频驱动的AI肖像视频生成系统EMO,并已在通义App上线。用户只要上传单一的肖像参考图像和语音音频,该系统能迅速生成包含丰富面部表情和头部姿态的视频。EMO的独特之处在于,