您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DSCC]:科技动态2023年第3期(总第3期) - 发现报告
当前位置:首页/行业研究/报告详情/

科技动态2023年第3期(总第3期)

电子设备2024-08-05-DSCC见***
AI智能总结
查看更多
科技动态2023年第3期(总第3期)

制作 Production 目录CONTENTS 谷歌发布可生成高保真音乐的AI模型MusicLM07 QuickVid集成AIGC工具实现“一键生成”短视频07 Meta发布首个文本生成3D动态场景系统08 佳能推出新型HDR相机传感器,可在一次拍摄中捕捉多种曝光08 谷歌发布视频智能化编辑新方法,实现“AI导演”08 索尼发布具有AI分析功能的智能中心构图摄像机09 传输 Transmission 网络切片自适应动态分配技术将提升5G传输实时视频的服务质量...10英国电信拟用高空无人机补点5G网络10 EchoStar拟利用75MHzS波段部署5G/NGSO网络11 终端 Terminal 京东方展示110英寸8K裸眼3D显示屏11 视觉交互界面提升智能终端设备的使用体验12 MIT提出制造高分辨率小尺寸LED显示器新方法12 LG推出高能效、高亮度、宽视角的OLED新产品13 三星联手谷歌及高通打造XR生态系统与MR平台13 预测:MiniLED屏幕市场将进一步快速增长14 摘要 制作Production P07 谷谷歌歌发发布布音可乐生生成成高A保I模真型音M乐u的sicALIM模,型MuMsiucsLiMcL拥M有庞大的模型和曲风28、00作00曲小复时杂音的乐高训保练真数音据乐库。,能够通过文本或图像生成多种 P07 QQuuiicckkVViidd网集站成集A成IGCGP工T-具3和实现DA“LL一-E键2等生A成IG”C短工视具频,只需要用户音、输背入景提乐示、语图、片描兼述备清的楚短想视要频创,建实的现视“频一主键题生,成就”能短自视动频生。成配 P08 MMeettaaA发I团布队首提个出文首本生个成基于3D文动本态描场述景的系3统D动态场景生成系统M述A即V3可D输,出MA相V应3D的无三需维任动何态3场D景或,4并D能数从据任,意只位需置输和入角简度单观文看本。描 P08 佳曝光能推出新型HDR相机传感器,可在一次拍摄中捕捉多种佳不能同推区出域一同款时新实型现高多动种态曝范光围设(置H,D无R需)合传成感多器个,图可像以就在可传以感快器速的生位置成和H角DR度照观片看。。述即可输出相应的三维动态场景,并能从任意 P08 谷谷歌歌研发究布院视的频研智究能人化员编提辑出新基方于法文,本条实件现视“频AI扩导散演模”型的视频编辑视频新,方从法而Dr实ea现m智ix能,化可编根辑据视文频本内描容述的和目输标入。视频/图片生成新的 P09 索索尼尼发发布布具两有款A具I有分析AI功分能析的功智能能的中智心能构中图心摄构像图机摄像机新品S可R广G-泛A4应0用与于S教RG育-A、1政2,府能、企实业现、自医动疗识、广别播拍以摄及目现标场,活智动能等构领图域,。 摘要 传输Transmission P10 5G网络上传输实时视频方面取得了显著进展。 网量络切片自适应动态分配技术将提升5G传输实时视频的服务质欧目制洲作演的示实了时实视时频、传自输适提应供的更5G高网的络服切务片质分量配(技Qo术S,)可,为标远志程着节在 P10 P11 英国电信拟(用BT高)空计无划人测机试补一点种5安G装网在络高空无人机上的新型5G天线空,白,能以覆满盖足1.偏5万远平、通方信公基里础的设区施域薄,弱可地用区来的填网补络5连G接移需动求网。络的 服务。 EchoStar拟将利通用过发75射MH2z8S颗波卫段星部,署在5全G/球NG范SO围网内络利用75MHzS波希望段创部建署一5个G/独NG特S的O网S波络段,频实谱现组扩合展,S用波于段开战发略下。一E代ch移oS动ta卫r还星 P11 终端Terminal 京京东东方方在展I示SE1210023英展寸览8会K上裸展眼示3了D自显主示研屏发的110英寸8K裸眼3的D高显清示3屏D,显用示户效无果需。该佩屏戴突任破何了辅裸助眼设3备D就观可看以位体置验受到限极的速难流题畅, P12 的隐私安全问题引人担忧。 可满足多人在任意角度自由移动观看的需求。 视国际觉消交费互电界子面展提C升ES智2能02终3端有设几千备家的公使司用发体布验各种基于用户自身或户家数庭据数如据何的进设行备处,理但以几及乎设没备有的一安家全公和司保主障动机说制明,对新收型集电到子的产客品 摘要 P12 P13 P13 M20I2T3提年出消制费造电高子分展辨(C率ES小2尺02寸3)推LE出D了显可示以器在新V方R法中复制感觉甚至合气生味成的不终同端的产气品味,。包将括嗅一觉款和带触有觉八整种合气到味V墨R中盒,的旨耳在机为,用可户以提组 供更加身临其境的体验。 L相G关推研出究高报能告效指、出高,亮20度27、年宽全视球角投的入OO使L用E的D新智能产联品网车辆数要因量素将在从于20高2级3年驾的驶辅1.9助2系亿统增和长车至载3信.6息7娱亿乐,系推统动的增发长展的。主 三IPT星V领联域手第谷一歌个及跨高界合通作打团造体X标R准生“态IPT系V统健与康和M养R老平服台务技术规范”标准编制近日启动,IPTV利用本地化的长项,发挥其在健康科普、提供远程医疗和养老服务方面的优势,实现广电+卫生健康的跨界合作共建。 P14预据报测告:显M示ini,LE2D02屏2年幕全市球场移将动进应一用步需快求速提增升长,其中以TikTok为首长的达短31视亿频小应时用,吸同引比了增用长户的22主%要;注全意球力用,户全支球出用5户6亿每美天元观,看时同比康的增跨长界55合%作,共而建全。球游戏应用用户支出则同比下降了5%。生健 制作 1 谷歌发布可生成高保真音乐的AI模型MusicLM 继ChatGPT之后,音乐可能是AI内容生成的下一个重要前沿领域。1月27日,谷歌推出AI模型MusicLM,可直接从文字、图像中生成多种曲风的高保真音乐。 MusicLM并不是第一个文本生成音乐的AI模型,此前的可视化AI工具Riffusion和OpenAI(当前最热门的聊天机器人ChatGPT的研发公司)推出的Jukebox都可以通过文字自动创作音乐。但是,由于技术和数据等因素的限制,这些系统创作出的音乐都比较简单。与之前模型不同的是,MusicLM拥有庞大的模型和训练数据库(280000小时音乐),使其能制作出特别复杂或保真度特别高的乐曲。 通过AI技术,MusicLM还可以识别乐器,融合音乐流派,使用计算机通常难以掌握的抽象概念来编写曲目。此外,MusicLM也可通过图像生成音乐,例如世界名作《呐喊》《格尔尼卡》《星空》等皆可作为素材来源。 (信息来源:IT之家www.ithome.com) 2 QuickVid集成AIGC工具实现“一键生成”短视频 1月29日消息,一个名为QuickVid的新网站将集成大部分AI生成内容(AIGC)工具,用于自动创建短格式YouTube、Instagram和TikTok视频。用户只需输入提示语、描述清楚想要创建的视频主题,便可自动生成短视频。 基于用户给出的提示,QuickVid先利用GPT-3(自回归语言模型,采用AI生成人类自然语言)的生成文本功能生成短视频脚本,再根据从脚本中自动提取或手动输入的关键字,从免费的Pexels库(设计图库和视频库)中选择背景视频,同时叠加由DALL-E2(OpenAI文本生成图像系统)生成的图像,并调用GoogleCloud的文本转语音API添加YouTube免税版音乐库来合成画外音和背景音乐。 尽管QuickVid目前仍存在受限于Pexels库以及DALL-E2从文本到图像生成技术的局限性等问题,但它让我们看到了现有技术下生成短视频的一种可能,进一步释放了像抖音、快手等短视频平台上普通用户的生产力。 (信息来源:凤凰科技tech.ifeng.com) 3 Meta发布首个文本生成3D动态场景系统 1月30日消息,Meta的研究团队结合视频和3D生成模型的优点,提出了一个新的文本到4D(3D+时间)生成系统Make-A-Video3D(MAV3D)。MAV3D是第一个基于文本描述生成3D动态场景的方法,可为视频游戏、视觉效果或AR/VR生成动画3D场景。 该系统使用4D动态神经辐射场(NeRF),通过查询基于文本到视频 (T2V)的扩散模型,对场景外观、密度和运动一致性进行了优化。同时,由特定文本生成的动态视频可以从任何摄像机位置和角度观看,并且可以合成到任何3D环境中。 MAV3D的实现不需要任何3D或4D数据,而且MAV3D还可以通过多模态预训练模型CLIP完成由图像到4D应用的转换。 (信息来源1:学术头条公众号) (信息来源2:arXiv网站arxiv.org) 4 佳能推出新型HDR相机传感器,可在一次拍摄中捕捉多种曝光 目前,只有一种方法可以在光线条件变化很大的情况下捕捉高动态范围 (HDR)图像:用不同的曝光量拍摄多张照片,然后使用不同图像中的适当曝光的区域合成最终照片。以这种方式拍摄HDR图像需要相当严格的控制条件,拍摄对象不能在多次曝光之间移动,且需要一定的处理能力以便在拍摄完成后自动合成照片。佳能在1月23日推出的新传感器消除了这些限制,此传感器无需合成多个图像就可以生成高动态范围照片。 现有相机传感器中每个像素的曝光都是全局设置的,但佳能的新传感器将画面分为736个小区域,每个区域可以根据光线的缺乏或充足对曝光进行调整。比如,同时拍摄一辆正在驶出停车场汽车的车牌和司机,对传统相机技术来说是一个很大的挑战。但佳能的新传感器与专用的图像处理CPU一起工作,同时计算和设置传感器所有736个区域的曝光,使得图像中汽车的所有部分都得到了适当的曝光,能够快速得到车牌和司机的高动态范围图像。 (极客网www.fromgeek.com) 佳能开发这种传感器的初衷是为了满足工业应用,但其未来大概率会用于消费级相机的感光元件,提升相机的自动曝光功能。 5 谷歌发布视频智能化编辑新方法,实现“AI导演” 近日,谷歌研究院的研究人员提出了一种将文本条件视频扩散模型 象等。 还可将静态图片变为动图,并增加图片中的主角,或更换主角的动作、形 (根V据D给M定,文Vid本e和oD输iff入u视sio频nM/图od片el生)成应新用的于视频,编从辑而的实新现方智法能D化re编am辑ix视,频可的在目于标给。定在文本AI的GC视领频域编,辑给不定仅文仅本是的在视保频留编原辑始比视图频像内编容辑的更同难时实修现改,视原觉因外观一,致而性且,以要生合成高新质的量动的作新,视此频外。还与需之要前在的时“间文上字进生行成对视齐频,”保A持I不时同间的上是的,D视r频ea作m品ix的除保了真对度原。始目标进行微调外,还会对无序帧集进行微调,可确保导演谷”歌的主能要力基。于例扩如散,模基型于和下掩图码中时的间猴注子意视力频机,制若解给决定难文点本问信题息,为实“现一“只AI熊并在将欢动快作的修音改乐为中舞跳蹈舞,但跳视跃频,中移主动体着的全基身本”属,性Dr没ea有m改ix变可。将此猴外子,变D为re熊am,ix (信息来源1:量子位公众号) (信息来源2:机器之心Pro公众号) 6 索尼发布具有AI分析功能的智能中心构图摄像机 1月31日,索尼正式发布两款具有人工智能分析功能的PTZ(平移/俯仰/变焦)智能中心构图摄像机新品SRG-A40与SRG-A12,这两款产品具有“AI”智能构图、4K高画质视频、多种接口与视频流格式、强大的变焦以及简洁的连接与操控等特点,可广泛应用于教育、政府、企业、医疗、广播以及现场活动等领域,该新品将于2023年5月上市。 SRG-A40与SRG-A12不仅支持人工智能分析,能实现自动识别拍摄,智能中心构图,还可自动稳定地跟踪演讲者,无论是侧身还是快速移动,亦或是在多人画面中都可持续跟踪目标,并且支持全身、半身和特写三种智能构图模式,拍摄自由度更高。两款新品使用先进的人工智能识别技术,开机后能自动搜索