行业报告|行业专题研究 证券研究报告 2023年4月12日 计算机 AI应用:SAM实现CV底层技术颠覆式创新,或将赋能多场景应用 作者: 分析师缪欣君SAC执业证书编号:S1110517080003 分析师陈涵泊SAC执业证书编号:S1110522110003 请务必阅读正文之后的信息披露和免责申明 行业评级:强于大市(维持评级)上次评级:强于大市 摘要 1、Meta发布SAM智能抠图,CV领域或迎来颠覆式技术创新 Meta研究部门发布了一篇名为其“SegmentAnything”的论文,文中介绍了一个全新的SegmentAnythingModel(SAM),可以用于识别图像和视频中的物体,甚至是人工智能从未被训练过的物品。利用类NLP技术路线,完成CV底层技术突破,并且具有广泛的通用性,足以涵盖各种用例,不需额外训练就可开箱即用地用于新的图像领域,并具备零样本迁移的能力。 2、Meta同时发布了迄今为止最大的分割数据集SA-1B,由1100万张图像及11亿个掩码组成 该数据集由1100万张多样化、高分辨率、保护隐私的图像,以及11亿个高质量分割掩码组成。SAM模型收集新的分割掩码速度较以往任何时候都要快,交互式标注一个掩码只需要大约14秒。与以前的大规模分割数据收集工作相比,SAM模型比COCO完全手动的基于多边形的掩码标注快6.5倍,比以前最大的数据标注工作快2倍。此外,SA-1B比任何现有的分割数据集多出400倍的掩码。并且通过研究证实,这些掩码具有高质量和多样性。 3、SAM作为开源且更通用AI系统的强大组件,赋能工业、煤矿、电力、自动驾驶、安防监控等多场景 与专门为一组固定任务训练的系统相比,基于prompt工程等技术的可组合系统设计将支持更广泛的应用,可以预计,在未来,在任何需要在图像中查找和分割对象的应用中,都有SAM的用武之地。SAM可以成为AR、VR、内容创建、科学领域和更通用AI系统的强大组件。 4、投资建议:关注视觉领域技术型公司、多模态公司:关注虹软科技、当虹科技、万兴科技、千方科技、佳都科技等;关注煤矿、电力、自动驾驶等工业应用类公司:关注云鼎科技、智洋创新、北路智控、梅安森、美腾科技、锐明技术、东方电子等。 5、风险提示:CV技术发展不及预期;应用落地不及预期;国内技术跟进不及预期;行业竞争加剧。 请务必阅读正文之后的信息披露和免责申明2 1 SAM颠覆式创新,NLP技术路线实现对CV底层技术突破 请务必阅读正文之后的信息披露和免责申明3 1、Meta发布SAM智能抠图,CV领域或迎来颠覆式技术创新 4月5日,Meta研究部门发布了一篇名为其“SegmentAnything”的论文,文中介绍了一个全新的SegmentAnythingModel(SAM),可以用于识别图像和视频中的物体,甚至是人工智能从未被训练过的物品。 利用类NLP技术路线,完成CV底层技术突破。 SegmentAnything是致力于图像分割的第一个基础模型。在此之前,分割一直是CV领域的核心任务,然而如果想为特定任务创建准确的分割模型,通常需要专家进行高度专业化的工作,这个过程需要训练AI的基础设施,和大量仔细标注的域内数据,因此门槛极高。Meta提出的图像分割模型SAM接受了多样化数据训练的可提示模型,不仅能适应各种任务,而且操作起来也类似于在NLP模型中使用提示的方式。该模型掌握了“什么是对象”这个概念,可以为任何图像或视频中的任何对象生成掩码,即使是它在训练中没有见过的对象。SAM具有广泛的通用性,足以涵盖各种用例,不需额外训练就可开箱即用地用于新的图像领域,并具备零样本迁移的能力。 请务必阅读正文之后的信息披露和免责申明 4 Meta发布SegmentAnything论文 资料来源:《SegmentAnything》AlexanderKirillovetc.,天风证券研究所 SAM能从照片或视频中对任意对象实现一键分割 资料来源:新智元微信公众号,天风证券研究所 1、支持多种交互方式完成图像、视频分割 除了简单的识别图片中的物品外,此次SAM还支持用户使用各种交互性的方式来分离出想要的物体。 Meta官网中的三种分割图像部分方法演示:1)悬停与点击 (Hover&Click),将鼠标置于用户想选定的物体上即可完成分割;2)框选(Box),将用户想选定的部分框选出来即可完成分割;3)全选(Everything),自动识别图像内所有物体。 用户可以直接通过输入文字查询,AI可以帮助找到并标记图片中用户想要找的文字对象。 对于视频中的物体,SAM也能够准确识别并且还能快速标记出物 文字查询完成图片分割 品的种类、名字和大小,并自动用ID给这些物品进行记录和分类。 Meta表示未来这一技术会跟AR/AR头显进行广泛结合。 资料来源:硅星人微信公众号,天风证券研究所 请务必阅读正文之后的信息披露和免责申明 5 SAM三种分割图像方法演示 资料来源:SegmentAnything官网,天风证券研究所 1、SAM可以针对任何提示返回有效的分割掩码 SAM在包含10亿个掩码的多样化、高质量数据集上进行训练,使得模型能够泛化到新的对象和图像,用户不再需要收集自己的细分数据,为用例微调模型。研究人员训练的SAM可以针对任何提示返回有效的分割掩码。提示可以是前景/背景点、粗略的框或掩码、自由形式的文本或总体上任何指示图像中需要分割的信息。1)SAM允许用户单击一下,或交互式单击许多点,来分割对象,还可以使用边界框提示模型;2)在面对被分割对象的歧义时,SAM可以输出多个有效掩码;3)SAM可以自动发现、屏蔽图像中的所有对象;4)在预计算图像嵌入后,SAM可以实时为任何提示生成分割掩码,允许用户与模型进行实时交互。 SAM的图像编码器为图像产生一次性嵌入,而轻量级解码器将任何提示实时转换为矢量嵌入。然后将这两个信息源在一个预测分割掩码的轻量级解码器中结合起来。在计算出图像嵌入之后,SAM可以在短短50毫秒内生成一段图像,并在网络浏览器中给出任何提示。 请务必阅读正文之后的信息披露和免责申明 6 Segmentationmodel 资料来源:《SegmentAnything》AlexanderKirillovetc.,天风证券研究所 SAM工作原理 资料来源:SegmentAnything官网,天风证券研究所 1、同时发布SA-1B数据集,助力SAM模型提效 除了发布的新模型,Meta还发布了迄今为止最大的分割数据集SA-1B,由1100万张图像及11亿个掩码组成。 该数据集由1100万张多样化、高分辨率、保护隐私的图像,以及11亿个高质量分割掩码组成。数据集的整体特性有:1)图像总数:1100万;2)掩码总数:11亿;3)每张图像的平均掩码:100;4)平均图像分辨率:1500x2250pixels。有了SAM模型,收集新的分割掩码速度较以往任何时候都要快,交互式标注一个掩码只需要大约14秒,每个掩码的标注过程只比标注边界框慢2倍,使用最快的标注界面,标注边界框大约需要7秒。与以前的大规模分割数据收集工作相比,SAM模型比COCO完全手动的基于多边形的掩码标注快6.5倍,比以前最大的数据标注工作快2倍。 依赖于交互式标注掩码并不足以创建10亿多个掩码数据集,因此Meta构建了一个用于创建SA-1B数据集的数据引擎。该数据引擎有三个齿轮,即1)模型辅助标注;2)全自动标注与辅助标注的混合,有助于增加收集到的掩码的多样性;3)全自动掩码创建,使数据集能够扩展。SA-1B比任何现有的分割数据集多出400倍的掩码。并且通过研究证实,掩码具有高质量和多样性,在某些情况下,甚至在质量上可与之前规模更小、完全手动标注数据集的掩码相媲美。最终的数据集包括超过11亿个分割掩码,这些掩码收集在大约1100万张授权和保护隐私的图像上。 请务必阅读正文之后的信息披露和免责申明 7 SA-1B掩码标注速度更快 资料来源:新智元微信公众号,天风证券研究所 SA-1B比任何现有的分割数据集多出400倍掩码 资料来源:新智元微信公众号,天风证券研究所 2 SAM作为开源且更通用AI系统的强大组件,有望赋能工业、煤矿、电力、自动驾驶、安防监控等多场景 请务必阅读正文之后的信息披露和免责申明8 2、SAM模型、数据集均已开源,通用性优异 随着Meta推出SAM模型,Meta现已将模型及其背后的训练数据集一并开源。其模型背后巨大的训练数据集是当前最大的图像分割数据集,可以通过Meta官网下载,模型也可在GitHub上进行查看或下载。此外,Meta也推出了SAM模型的Demo网页,点击即可进行试用。 Meta认为:与专门为一组固定任务训练的系统相比,基于prompt工程等技术的可组合系统设计将支持更广泛的应用。在未来,在任何需要在图像中查找和分割对象的应用中,都有SAM的用武之地。SAM可以成为AR、VR、内容创建、科学领域和更通用AI系统的强大组件。我们认为:SAM不仅学会一般意义上的对象是什么,并且可以为任何图像或视频中的任何对象生成掩码,甚至包括在训练过程中未遇到的对象和图像类型,其具备的通用性或将可以覆盖广泛的用例。 在VR/AR领域,SAM可以根据用户的视线选择对象,然后把对象提升为3D。 请务必阅读正文之后的信息披露和免责申明 9 Meta也推出了SAM模型的Demo网页 资料来源:AI前哨站微信公众号,天风证券研究所 SAM可以通过AR眼镜识别日常物体 资料来源:数字经济先锋号微信公众号,天风证券研究所 资料来源:新智元微信公众号,天风证券研究所 资料来源:煤矿数字化微信公众号,天风证券研究所 请务必阅读正文之后的信息披露和免责申明 10 2、SAM有望赋能多场景应用:工业、煤矿、电力等 AI智能巡检机器人取代人工劳动有着技术和安全上的优势,可以为监控中心提供详细而全面的生产现场实时数据信息以及图像,形成煤矿大数据统计信息,满足事故预防及分析的需要。我们认为,在工业领域,SAM有望赋能煤矿工业、电力工业等领域的巡检机器人完成技术升维,从而提升相关工业生产效率及安全水平。 2023年3月11日中国煤科机器人公司与中国煤科沈阳研究院联合华为共同研发的“昇腾矿用轮式巡检机器人-领航者3”亮相,该产品将Atlas500智能小站应用于机器人图像识别系统中,通过基于Atlas500的仪器仪表图像识别和人员监测功能,可实现智能巡检机器人分析安全隐患,提升巡检效率。 SAM可以进行3D物体重建智能巡检机器人 2、SAM赋能多场景应用:自动驾驶、视频监控分析等 我们认为,SAM可以赋能多场景的深度应用,如道路场景中的自动驾驶、体育运动场景中的视频监控分析及农业 领域中协助农民或科学家进行研究等。未来在像素级别的图像理解与更高级别的视觉内容语义理解之间,我们将看到更紧密的耦合,进而解锁更强大的AI系统。 道路场景中的应用-自动驾驶体育运动场景-视频监控分析 资料来源:SegmentAnything官网,天风证券研究所资料来源:SegmentAnything官网,天风证券研究所 SAM在农业领域应用 室内场景-扫地机器人 资料来源:数字经济先锋号微信公众号,天风证券研究所 资料来源:SegmentAnything官网,天风证券研究所 请务必阅读正文之后的信息披露和免责申明 11 3 投资建议 请务必阅读正文之后的信息披露和免责申明12 请务必阅读正文之后的信息披露和免责申明 13 3、投资建议 建议关注:(1)关注视觉领域技术型公司、多模态公司:关注虹软科技、当虹科技、万兴科技、千方科技、佳都科技等;(2)关注煤矿、电力、自动驾驶等工业应用类公司:关注云鼎科技、智洋创新、北路智控、梅安森、美腾科技、锐明技术、东方电子等。 4 风险提示 请务必阅读正文之后的信息披露和免责申明14 请务必阅读正文之后的信息