您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[ABP]:科技动态2023年第9期(总第9期) - 发现报告
当前位置:首页/行业研究/报告详情/

科技动态2023年第9期(总第9期)

信息技术2024-08-05-ABP付***
AI智能总结
查看更多
科技动态2023年第9期(总第9期)

AI ArtificialIntelligence 目录CONTENTS 复旦大学发布国内首个插件增强的开源对话语言模型07 英伟达VideoLDM可根据文本生成4.7秒视频07 SynthesisAI通过文本创建逼真虚拟数字人08 浙大、北大和CMU联合推出音频理解与生成系统AudioGPT08 OpenAI拟推出ChatGPT企业版订阅服务09 ChatGPT带来三大数据安全新挑战09 传输 Transmission DVB通过DVB-AVC规范修订版,支持VVC和AVS3视频编码10 我国6G通信新突破:实现100Gbps无线实时传输10 欧洲光纤到户稳步推进,但距全面覆盖仍有差距11 英国搭建全球首个sub-THz高吞吐量6G测试台11 终端与应用TerminalandApplication ExitSuit开发新型外骨骼:旨在实现VR沉浸式全身交互12 仿真预测模型将辅助设计出可与人体紧密贴合的柔性电子设备13 索尼XR认知芯片再次迎来算法和功能升级13 长虹发布国内首款全程288Hz高刷新率系列电视14 市场 Market 预测:到2028年,全球FAST收入将增加两倍15 三大增长引擎助力谷歌成为媒体技术行业最大供应商15 摘要 P7 AIArtificialIntelligence 复复旦旦大大学学发发布布国国内内首首个个插插件件增增强强的的开开源源对对话话语语言言模模型型——新版M算O器S、S模方型程,求它解与器等GP插T件-4工一具样,为能用使户用提搜供索更引多擎的、服图务像。生成、计 P7 英英伟伟达达和Vi康de奈oL尔D大M学可研根究据团文队本推生出成V4id.7eo秒LD视M频模型,该模型有4成1最亿高参分数辨,率专2注04于8×通1过28文0、本2创4建帧视/频秒,、可最长根据4.7文秒本的描视述频自。动生 P8 SSyynntthheessisisAAII公通司过发文布本虚创拟建数逼字真人虚AI拟生数成字方人案,可通过文本描述创觉特建效高、分智辨能率城、市高等质多量个的行虚业拟的数3字D人应,用将开加发。速AR/VR游戏、视 P8 浙北京大大、学北、大浙和江C大M学U和联卡合内推基出梅音隆频大理学解联与合生推成出系全统新的Au音d频ioG理P解T 等20+种多语种、多模态的AI音频任务。 与能生够成完系成统语音Au识di别oG、P语T,音通合过成将、C语ha音tG翻PT译与、音音频频基生础成模、型歌相声结合合成, P9 足企业级客户的需求,同时还在探索ChatGPT更多的付费计划。 OOppeennAAII拟拟在推未出来C几h个at月GP内T推企出业C版ha订tG阅PT服企务业版订阅服务,以满 P9 难题,深度伪造攻击逐渐流行。 CChhaattGGPPTT将带给来数三据大安数全据带安来全三新大挑全战新挑战:一是降低了网络犯罪途门径,槛会,让加数剧据数在据遭使遇用外过部程攻中“击被的动风”险泄;露二;是三增是加信了息数识据别泄成露为的 摘要 传输Transmission P10 D码VB通过DVB-AVC规范修订版,支持VVC和AVS3视频编 态范围和高帧率,将大幅增强广播和在线音视频体验。 DVVCB和决策AV委S3员两会个通新过的了编D码VB技-A术V,C能规够范支的持新修4K订/8版K,分其辨中率增、加高动了 P10 支撑,未来还可应用于航天领域。 我太赫国兹6G通通通信是信新6G突通破信:关实键现技11术0之0G一b,ps中无国线航实天时科传工输二院最新实验传输实,现将了为在移11动0G通H信z基频站段和10核G心Hz网带设宽备上间完数成据1无00线G回bp传s无提线供重实要时 P11 欧欧洲洲光FT纤TH到理户事稳会步报推告进显,示但,距欧全盟面27覆国盖+仍英有国差的距光纤网络覆盖率来大超部过分了光总纤家网庭络的覆一盖半工,作达将到集55中.1在%德,国未、来英五国年和将意稳大步利增。长。未 P11 校准方法的新技术。 英是国德搭科建技全联球合首英个国国su家b-物TH理z实高验吞室吐量(NP6LG)测和试萨台里大学在英国搭建了用全场球景首,个研究subsu-TbH-TzH高z吞信吐号量的性6G能测,试以台打,造用出以优针化对数未据来路6径G使和 终端与应用TerminalandApplication P12 E英x国it制Su造it商开E发xi新tS型uit外开骨发骼了:一旨种在包实含现力反VR馈沉系浸统式的新全型身外交骨互骼,能加够强同了步沉用浸户式的全动身作交,互并VR通体过验触。觉反馈对VR中的事件做出反应, 摘要 P13 P13 P14 仿备真预测模型将辅助设计出可与人体紧密贴合的柔性电子设 未来贴合人体部位或特殊表面的柔性显示器将应运而生。 美时预国测研模究型人,员开开创发了了柔计性算设柔备性与电人子体设各备个与部球位形无表缝面集贴成合的程新度时的代即, 现更加出色的画质水准。 索202尼3年XR,认索尼知芯XR片认再知次芯片迎再来次算迎法来和算功法升能级升和级功能升级,不仅使能音力视进频一信步号提的升,处还理效能果够更充加分出发色挥,各对类不新同型显示技术面的板潜的能驱,动实 长近期虹,发长布虹国发内布首国款内全首程款2支88持H全z程高刷28新8H率z系显列示电的视高刷新率 系畅的列画电面视,可能以实增现强全打程游满戏帧、2看88球H赛z 市场Market 的视损效显体验示。,带来更流 P15 预预分析测公:司到D2ig0it2a8lT年V,Re全sea球rchFA预S测T,收2入02将8年增全加球两广倍告支持的免费流媒体电视(FAST)收入将达到180亿美元(164亿欧元),比2022年的60亿美元增加两倍。 P15三研究大公增司长引Ca擎re助tta力R谷es歌ea成rch为通媒过体深技度术分行析业指最出大,供机应顶商盒市场、联力谷网歌电成视为(媒CT体V)技广术告行解业决最方大案供市应场商、的三公大共增云长存引储擎服。务市场是助 AI 1 复旦大学发布国内首个插件增强的开源对话语言模型 4月21日,复旦大学计算机科学技术学院自然语言处理实验室开发的新版MOSS模型上线,成为国内首个插件增强的开源对话语言模型,支持搜索引擎、图像生成、计算器、方程求解器等插件工具。与2月发布的MOSS模型相比,升级版拥有更加丰富的中文世界知识、更为流畅的中文对话体验,并可以接入外部插件工具来增强自身能力。 开发者介绍,新版MOSS模型是国内第一个插件版对话语言模型,能使用搜索引擎、图像生成模型、方程求解器等外部工具,为用户提供越来越多的服务。“GPT-4也能接入各种插件,这种能力在大模型落地应用过程中会很有价值。” 目前,MOSS项目的代码、数据、模型参数已在一些平台开放。开源代码涵盖模型训练和推理代码,开源数据包括超100万条对话训练数据,开源模型包括160亿参数中英双语基座语言模型、对话模型以及插件增强的对话模型。未来,MOSS将陆续开源更多训练数据及模型参数,促进人工智能领域的科学研究和开源社区的生态繁荣,同时也为企业私有化部署人工智能模型、开展相关服务提供解决方案。 (信息来源:复旦大学计算机学院官网cs.fudan.edu.cn) 2 英伟达VideoLDM可根据文本生成4.7秒视频 4月20日消息,英伟达和康奈尔大学的研究团队在视频生成领域开展合作,推出VideoLDM模型,该模型有41亿个参数,可根据文本描述自动生成最高分辨率2048×1280、24帧/秒、最长4.7秒的视频。 英伟达通过潜在扩散模型(LDM)实现了高质量图像合成,并通过在压缩的低维潜在空间中训练扩散模型来减少计算量。研究团队首先仅在图像上预训练低维扩散模型,然后通过引入时间维度并对编码的图像序列(即视频)进行微调,将图像生成器转变为视频生成器。同时,在时间上对齐 扩散模型上采样器,将低维扩散模型变成时间一致的视频超分辨率模型。VideoLDM模型还能创建驾驶场景的视频,分辨率为1024×512像素, 最长5分钟。英伟达表示,目前该项目处于研究阶段,暂时不会向公众开放。 (信息来源:NVIDIA官网research.nvidia.com) 3 SynthesisAI通过文本创建逼真虚拟数字人 4月19日消息,从事合成数据技术的公司SynthesisAI公布了一种生成式AIAvatar新方案“3DGenerativeAI”,可以通过文本提示生成高分辨率、高质量的虚拟数字人。 在3DGenerativeAI方案中设计了一种创新方法,利用基于扩散模型的生成式人工智能架构,构建了由性别、年龄、种族、发型和服装等关键参数控制的网格模型。用户输入所需数字人的文字描述,系统便会生成符合规格的3D数字人。此外,用户还可以通过更改文字描述或使用滑块来调整面部表情和光线等功能,对3D数字人进行编辑。 该方案可用于游戏、VR、电影等应用,加速AR/VR游戏、视觉特效等多个行业的3D应用开发。SynthesisAI表示,他们是第一家在如此高质量和细节水平上演示文本到3D数字人合成的公司。 (信息来源:新浪VRvr.sina.cn) 4 浙大、北大和CMU联合推出音频理解与生成系统AudioGPT 最近,浙江大学、北京大学和卡内基梅隆大学联合推出了一种全新的音频理解与生成系统——AudioGPT。AudioGPT通过将ChatGPT与音频基础模型相结合,成功解决了当前大型语言模型(LLM)无法处理复杂的音频信息以及用户交互性差等问题。 AudioGPT将ChatGPT当作负责对话与控制的大脑,与音频基础模型协同,实现跨模态转换以及音频(语音、音乐、背景音、3D说话人)模态的理解、生成,能够完成20+种多语种、多模态的AI音频任务。截至目前,AudioGPT可完成语音识别、语音合成、语音翻译、语音增强、语音分离、音频字幕生成、音频生成、歌声合成等AI音频任务。 AudioGPT的应用非常广泛,例如在语音识别领域,其可以将语音转换为文本,从而实现对语音的理解和分析;在音乐领域,其可以将音乐转换为歌词,从而实现对音乐的分析和理解;在语音翻译领域,其可以将一种语言的语音转换为另一种语言的文本,从而实现语言的翻译和交流。总之,AudioGPT可使人类更轻松地创建丰富多样的音频内容,并在多模态人工智能系统中发挥更大的作用。 (信息来源:Arxivarxiv.org) 5 OpenAI拟推出ChatGPT企业版订阅服务 OpenAI计划在未来几个月内推出ChatGPT企业版订阅服务,OpenAI将该服务描述为“适用于希望掌控数据的专业人士以及寻求管理终端用户的企业。”OpenAI表示,ChatGPTBusiness将遵循API数据使用政策,即默认情况下不会使用企业用户的数据来训练模型。 (信息来源:流媒体网www.lmtw.com) 6 OpenAI此前表示,随着服务的快速增长,公司正在探索ChatGPT更多的付费计划。第一个付费服务ChatGPTPlus已于2023年2月推出,价格为每月20美元,约合138元人民币。为了探索潜在的新收入来源,OpenAI在3月份推出了ChatGPT插件,其通过授予机器人访问第三方知识源和数据库(包括网络)的权限来扩展机器人的功能。 ChatGPT带来三大数据安全新挑战 一是降低了网络犯罪门槛,加剧数据遭遇外部攻击的风险。过去,高水 个方面。 活带C来ha了tG很P多T便掀利起,的但人也工给智数能据热安潮全仍带在来继了续全,新其挑依战托,大主数要据表给现社为会以生下产三生 C商h业atGPT类工具,向这些工具“投喂”数据时,就造成了企业敏感信息、 二是增加了数据泄露的途径,会让数据在使用过程中“被动”泄露。人 普通人一本“武林秘籍”,让不懂代码、不懂技术的普通人也能成为黑客。 平的黑客只是一小部分,但人工智能技术让黑客的水