您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:国盛计算机Meta发布SAM,零样本分割图像中一切对象。 - 发现报告
当前位置:首页/会议纪要/报告详情/

国盛计算机Meta发布SAM,零样本分割图像中一切对象。

2023-04-08未知机构望***
国盛计算机Meta发布SAM,零样本分割图像中一切对象。

国盛计算机Meta发布SAM,零样本分割图像中一切对象。4月6号,Meta发布Segment Anything Model(SAM),该模型可以用于分割图像中的一切对象,即使是训练数据中没有见过的对象,可直接在网页体验:。SAM可以使用各种输入提示包括点击,框选和文字,指定要在图像中分割的内容,并且可以灵活集成其他系统,比如将AR/VR头盔的用户视线作为提示来选择对象,也可以将分割输出用作其他AI系统的输入,用于3D建模等任务。模型设计高效灵活,每个提示只需要几毫秒就能在浏览器中运行,并且Meta开源了SAM的模型和包含1100万张图像和11亿个掩码的训练数据集。SAM初步验证了多模态技术路径及其泛化能力,相当于计算机视觉领域的GPT-3。英伟达人工智能科学家Jim Fan认为Meta的这项研究是计算机视觉领域的“GPT-3时刻”之一。SAM是通用的分割方法,已经学会了物体是什么的一般概念,可以对不熟悉的物体和图像进行零样本泛化,而无需额外的训练。GPT-3系列模型可以使用“提示”技术对新数据集和任务执行零样本和少样本学习,SAM从中获得灵感将提示技术用于图像分割。展望将来,SAM可以成为更大的AI系统的一个组成部分,用于对世界做更通用的多模态理解,例如,理解网页的视觉和文本内容;在AR / VR领域,SAM可以根据用户的目光选择对象,然后将其“提升”到3D中;对于内容创作者,SAM可以提取图像区域以进行拼贴或视频编辑;SAM还可通过定位动物或物体在视频中进行研究和跟踪。多模态提升空间巨大,技术进步速度超预期,将落地千行百业。当前多模态的输入输出主要是文本、图像和音频,应用场景包括智能办公和,如智能PPT和其他office套件,此外多模态在AI绘画、AI音乐创作以及看图写稿等AIGC方向也有广泛应用。预计1~5年内,随着多模态的发展带来AI泛化能力提升,通用视觉、通用机械臂、通用通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。预计5~10年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。建议关注:模型及应用:大华股份、海康威视、云从科技、千方科技、商汤科技等工具厂商:当虹科技、万兴科技、星环科技等算力:英伟达、海光信息、寒武纪、中科曙光、易华录、拓维信息、四川长虹、神州数码、东华软件、常山北明、景嘉微、工业富联、浪潮信息、光通信产业链等