AI ArtificialIntelligence 目录CONTENTS Meta发布AI模型SAM,可准确识别图像中的对象07 HuggingGPT:用自然语言的方式帮助人类完成多模态复杂AI任务07 Disguise与Move.ai开发AI无标记点运动捕捉技术08 OpenAI开源新模型代码,AI图像生成速度更快08 Meta连续开源AIGC模型,降低AI技术开发门槛09 马斯克成立人工智能公司,与OpenAI展开竞争09 传输 Transmission BitFire公布高动态范围直播视频传输技术10 联发科与Inmarsat合作研发卫星直连通信技术10 调查报告:云、IP和5G在广播行业的应用不断发展11 终端与应用 TerminalandApplication 中科大研究团队提出超高密度3D全息投影新方法11 海信发布全球首款8K激光电视12 我国高动态范围和三维声标准推广至海外应用13 全国首个景区元宇宙体验馆落户张家界13 苹果智能戒指专利可利用手势完成VR/AR场景交互14 韩国光州科学技术学院与麻省理工学院合作研发新的VR运动系统14 市场 Market 预测:未来五年全球OTT电视服务收入将大幅增长15 华纳兄弟探索(WBD)推出全新流媒体Max15 摘要 P07 AIArtificialIntelligence Meta发布AI模型SAM,和可用准于确图识像别分图割像的中掩的码对数象据集。SAM可以内容高创效建、等高领质域量及地更分通割用图像AI或系视统频的中强的大任组何件对。象,成为AR/VR、 P07 H务uggingGPT:用自然语言的方式帮助人类完成多模态复杂AI任浙自大然与语微言软作亚为洲通研用究接院口推,出使大用模C型ha协tG作PT系作统为H中ug间gi控ng制GP器T,连采接用现工通有用各智种能AI(模A型GI来)解的决关多键一模步态。的复杂AI任务。该系统是迈向人 P08 色,以实现“虚拟制作和元宇宙体验大众化”。 Disguise与Move.ai开公发司正AI在无合标作记开点发运一动种捕基捉于技实术时动作捕捉软件从的视频AI中技提术取,将自无然标的记人点体动运作动捕,捉创技建术实与时图映形射处人理体技运术动结的合虚起拟来角, P08 OpenAI提开出源了新一模种型名代为码,CoAnIs图is像te生nc成yM速o度de更ls快的生成模型,无需对成速抗度训可练达即每可秒快速18获张得。高该质模量型样将本成,为并扩可散实模现型一的步有生力成竞图争像者,。生 P09 Meta连公续司开近源期连AIG续C开模源型A,IG降C低领域AI内技容术生开发成门模槛型,包括AI动画绘图生知成类模别型的和图开像放分语割言”分功割能模,型进,一分步别降可低以AI实技现术“开涂发鸦门转槛动。画”与“未 器人ChatGPT的开发公司OpenAI展开竞争。 P09马斯克近立日人成工立智了能一公家司名,为与X.AOIp的en人A工I展智开能竞公争司,旨在与聊天机 摘要 传输Transmission P10 P10P11 BIDitCFi与re浪公潮布信高息动联态合范发围布直的播《视2频02传2-输20技23术中国人工智能计算力发展预计评未估来报告5年》中指国出智,能20算22力年规中模国的智年能复算合力增规长模率超将过达通52用.3算%。力, 联美发国科Di与spIIlancmea公rs司at宣合布作将研在发2卫0星23直年连1通月信的技C术ES展会上推出“世界电线上或第端一口台,真使正用的专无有线的电可视更”换,电该池款系5统5英,寸依靠4K可O充LE电D电电池视运没行有。 调为查了报服告务:听云障、人I群P,和英5G国在A广R公播司行业XR的AI应G用la不ss断推发出展具有语音转文字用户功眼能前的,AR还眼能镜将,文该字眼记镜录能保够存将在语手音机端生,成方字便幕以,后并回直溯接。呈现在 终端与应用TerminalandApplication P11P12P13 中科大研究团队提出超一高种密超度高3密D度全3息D投动影态新全方息法投影的新方法,解实现决高了密投度影、平低面串深扰度、分大辨视率角低的和三平维面动间态图全像息串投扰影大。的问题,能够 海信发视布像全在球其首全款场景8K显激示光战电略视发布会上公布了多款全场景显示产品幕,画面包,括拥全有球高首达款383K00激万光个电细视节L点X。,L画X质能表投现影优10异0。英寸超清巨 我UW国A高联动盟态与范会围员和单三位维法声国标E准xp推lo广re至rs海公外司应在用北京签署内容合作备忘术标录,准,将对采其用纪高录动片态进范行围色HD彩R调V节ivi与d、音三画维效声果A提ud升io。VEixvpidlo等re技rs的准在部海分外纪的录首片次已应经用采。用8K+HDRVivid制作,这是HDRVivid标 摘要 P13 P14 P14 全国首个景景区区元元宇宇宙宙体体验验馆馆落将户于张家4月界28日在张家界国家森林公AI+园XR开等放技,术该为项游目客使打用造体有积故视事频、、有虚内拟容人的与元高宇精宙度沉数浸字式孪游生览空及 间。 实现对应操作。 苹果智最能近戒获指得专了利一可项利“用智手能势戒完指成”设VR计/A专R利场,景该交专互利可用于增佩戴强智现能实戒(指AR,)由或内虚置拟传现感实器(检V测R)手场势景,,从通而过在左虚右拟手环分境中别 识别和分析,为用户提供沉浸式、自然且舒适的VR体验。 韩统国光州科学技术学院与麻省理工学院合作研发新的VR运动系韩发国了光一州种科基学于技脚术的研V究R运院动与美系国统麻“省Se理am工le学ss院-w的a研lk”究,人通员过合步作开态 市场Market P15 P15 预全测球:O未TT来电五视年和全视球频O预TT测电报视告服表务明收,入O将TT大电幅视增剧长集和电影的亿美收元入增将加在8210028亿年美达元到。2350亿美元,比2022年的1540 华纳兄弟探探索索((WWBBDD))推推出出全全新新流订媒体阅型Ma视x频点播服务流媒体M体a验x,、其简亮洁点的在导于航高以质及量4K视超频高回清放画、质个。性化服务、更突出的孩子 AI 1 Meta发布AI模型SAM,可准确识别图像中的对象 4月6日,Meta发布AI模型SegmentAnythingModel(SAM),该模型能够根据文本指令等方式进行图像分割,实现“一键抠图”并识别出分割对象种类。此外,Meta还发布了使用SAM收集的图像注释数据集SegmentAnything1-Billionmaskdataset(SA-1B),并表示这是有史以来最大的分割数据集。该数据集可用于研究目的,允许他人在较为宽松的Apache2.0许可下使用。 SAM是基于提示工程(Promptengineering)技术的可组合系统设计方式,在包含超过10亿个掩码的高质量且多样化的数据集上进行训练,这使其能够泛化到新任务和新领域,用于查找和分割图像中的任何对象。开发者可以在该模型的基础上,开发出功能更强大、影响范围更广的人工智能模型。 SAM可以成为AR、VR、内容创建、科学领域和更通用AI系统的强大组件。在虚拟现实(VR)和增强现实(AR)场景中,SAM可以根据用户的视线选择对象,然后将其“提升”至3D。对于内容创作者,SAM可以提取图像区域以进行拼贴或视频编辑。对于Meta来说,SAM模型可以帮助建立其智能眼镜项目(ProjectAria),例如通过AR眼镜识别日常物品,向用户发出提醒和指示。 (信息来源1:DATACONOMYdataconomy.com) (信息来源2:MetaAIai.facebook.com) 务2 HuggingGPT:用自然语言的方式帮助人类完成多模态复杂AI任 4月3日消息,浙江大学与微软亚洲研究院合作推出大模型协作系统HuggingGPT,该系统以自然语言作为通用接口,能够根据请求自动分析并选择AI模型来解决多模态的复杂AI任务。其工程流程分为四步:任务规划、模型选择、任务执行和输出结果。 HuggingGPT设计的目的是实现人工通用智能(AGI),其关键在于能够解决具有不同领域和模式的复杂AI任务。先前的研究成果离此还有一定距离,因为大量的AI模型只能出色地完成某一特定任务。HuggingGPT使用大语言模型ChatGPT作为中间控制器来管理现有的所有AI模型,可以通过“调动和组合个体力量”,来解决复杂的AI任务。HuggingGPT使用 ChatGPT解析用户请求,例如“生成一个女孩正在看书的图片,她的姿势与给定图片中的男孩相同。然后请用你的声音描述新图片”,并将任务分为多个具体的子任务,并根据需要选定合适的AI模型来完成任务。 HuggingGPT的应用范围非常广泛,可以在各种形式的复杂任务上表现出良好的性能。例如,在音频和视频任务中,它展现了组织模型之间合作的能力,通过分别并行和串行执行两个模型的方式,完成了一段“宇航员在太空行走”的视频和配音作品。此外,它还可以集成多个用户的输入资源执行简单的推理,比如在多张图片中,数出其中有多少匹斑马。 (信息来源:量子位QbitAI微信公众号) 3 Disguise与Move.ai开发AI无标记点运动捕捉技术 4月6日消息,Disguise正与无标记点动作捕捉技术公司Move.ai合作,拟将先进的无标记点动作捕捉技术与图形处理技术结合起来,用于电影和情景电视、广播电视和扩展现实影棚,并最终实现“虚拟制作和元宇宙体验大众化”。 目前,他们正在开发一种基于实时无标记点动作捕捉软件Invisible的专门AI技术,并集成到Disguise平台中,目的是消除对动作捕捉服装的要求。此技术的工作原理是利用先进的AI、计算机视觉、生物力学和物理学从视频中提取自然的人体运动,自动将数据重新定向到角色服装上,创建一个可以实时映射人体运动的虚拟角色。具体实现时,Invisible的动作捕捉数据将直接集成到Disguise的工作流程中。同时,Disguise的协议将确保骨骼数据在渲染集群之间的传输,使跟踪数据有更大的同步以及物理和虚拟世界更好的融合。 该解决方案可用于:元宇宙体验中的虚拟化身,虚拟制作中的数字角色和广播中的AR参与者,影棚中演员逼真阴影投射,手势触发的3D图形和场景变化,运动触发的粒子效果等。 (信息来源:Disguise官网www.disguise.one) 4 OpenAI开源新模型代码,AI图像生成速度更快 在AI图像生成领域,扩散模型一直备受关注,但其采样速度缓慢的特点限制了它在实时应用中的潜力。为此,OpenAI提出了一种新的生成模型——ConsistencyModels。 ConsistencyModels作为生成模型,不仅支持快速一步生成图像,同样仍然允许迭代生成,不仅可以用蒸馏预训练扩散模型的方式来进行训练,还可以作为独立的生成模型来进行训练。此外,该模型还具有零样本图像 编辑能力、图像修复功能,以及支持生成高分辨率图像。 研究团队通过实验证明,ConsistencyModels在一步生成和多步生成中优于现有的扩散模型,仅需3.5秒就能生成64张分辨率为256×256的图片,平均每秒可生成18张。因此,ConsistencyModels将引领图像生成领域的新革命。 (信息来源1:arXivarxiv.org) (信息来源2:机器之心公众号) 5 Meta连续开源AIGC模型,降低AI技术开发门槛 补充人类的创造力。 分别M是e首ta个公司AI的动基画础绘人图工(智An能im研a究te团d队Dr最aw近in连gs续)开生源成了模两型个和内开容放生语成言模分型割,模型A(niOmpaetne-dVoDcrawuinlagrsy是Se全gm球e首nt个atiAoIn动,画OV绘S图eg开)源。项目,可以将简单的非万现个实