电子 SAM分割图像一切,视觉端芯片崛起 Meta发布SAM,零样本分割图像中一切对象。2023年4月6日,Meta正式发布SegmentAnythingModel(SAM)AI模型,其本质上是一种图像分割模型,但最大的升级在于可以根据任何提示prompt(点击、框、 文本等)从照片或视频中对任意对象实现一键分割,这意味着SAM模型学会了“什么是物体”这一在计算机视觉领域(Computervision,CV)的 证券研究报告|行业专题研究 2023年04月12日 增持(维持) 行业走势 核心能力,并将自然语言处理领域(NaturalLanguageProcessing,NLP)的prompt范式延展到CV领域,属于革命性的技术突破。比如AR/VR头戴设备可通过用户实现焦点作为对象选择,同时也可以将分割输出用作其他AI系统的输入,适用于较多3D建模任务。 SAM模型初步验证多模态技术,机器视觉领域的“GPT-3”时刻。SAM 32% 16% 0% -16% -32% 电子沪深300 模型是通用的分割方法,其已经学会了物体是什么的一般概念,可以对不 熟悉的物体和图像进行零样本泛化,而无需额外的训练。Meta开源了SAM模型和1100万张图像和11亿个掩码的训练数据集,其模型设计灵活高效,即开源同时可以在网页中运行。我们认为,基于SAM的图像识别模型,或将快速应用于如安防、工业机器视觉、视频会议、AR/VR等行业。 SAM及其衍生模型,有望快速提高下游各行业渗透。我们认为,SAM模型在视觉识别领域具有重要意义。消费电子领域,进一步优化人脸解锁,3D空间扫描,视频动态捕捉等基础拍摄功能,在后处理端可以对拍摄文 字进行提取编辑;捕捉拍摄图片中特定对象进行提取编辑等功能,以及未来有望快速降低图像视频类创作领域门槛。AR/VR领域,真正实现设备端的虚拟现实结合应用。结合模型将有效的视野图像中识别及分割关注对象,进行后续的提取处理等交互操作,让设备更具备智能交互性。安防领 域,在特定场景会有难以覆盖及训练成本较高等情况,通过SAM及其衍 生模型,可以快速进行技术迭代及应用通用化,结合制造业及下游领域专 用图像类数据训练,有望带动安防领域公司精准快速的服务下游客户及特定行业。汽车智能化领域,现有场景下有利于帮助车辆更好的理解人,道路,车内外环境等因素,进一步提升智能驾驶,智能交互等一些车载应用 体验。 建议关注: 视觉芯片端:韦尔股份,龙迅股份,晶方科技,富瀚微,思特威,格科微;光学/镜头模组:高伟电子,舜宇光学,宇瞳光学,永新光学; 视觉方案:虹软科技; 安防模型及应用:海康威视,大华股份;工业机器视觉:奥比中光,凌云光; AR/VR:立讯精密,歌尔股份,水晶光电,创维数字,兆威机电,长盈精密。 风险提示:AI技术迭代不及预期;经济下行超预期;行业竞争加剧。 2022-042022-082022-122023-04 作者 分析师郑震湘 执业证书编号:S0680518120002邮箱:zhengzhenxiang@gszq.com 分析师佘凌星 执业证书编号:S0680520010001邮箱:shelingxing@gszq.com 相关研究 1、《电子:三星存储芯片或将减产,LLM开启算力新时代》2023-04-10 2、《电子:“AI革命”算力篇》2023-04-08 3、《电子:先进封装引领“后摩尔时代”,国产供应链新机遇》2023-04-05 请仔细阅读本报告末页声明 内容目录 一、MetaSAM登上舞台,CV领域浪潮已至3 1.1Meta发布图像分割AI模型SAM,掀起CV新革命3 1.2SAM融合交互式分割和自动分割,“零样本迁移”实现万物可分割4 二、计算机视觉领域的“GPT-3时刻”之一5 三、SAM及其衍生模型,有望快速深度赋能行业应用7 四、投资建议11 �、风险提示11 图表目录 图表1:SAM模型的三大构成3 图表2:SA-1B拥有的图像数量比任何现有数据集多6倍以上4 图表3:SA-1B拥有的掩膜数量比任何现有数据集多400倍以上4 图表4:计算机视觉四大核心任务——分类、定位、检测、分割4 图表5:SAM模型融合交互式分割和自动分割5 图表6:机器视觉产业图谱5 图表7:图像中对象识别6 图表8:图像中环境识别6 图表9:机器视觉算法概览7 图表10:IPADPro搭配长焦、广角、激光雷达扫描镜头7 图表11:IPADPro现实增强功能7 图表12:智慧零售支付应用8 图表13:服务机器人识别环境物体8 图表14:VR/AR成像原理示意图8 图表15:PICO全彩透视功能9 图表16:AR移动办公虚拟现实结合9 图表17:大华股份安防业务布局9 图表18:煤矿行业场景下成品运输段视觉识别10 图表19:钢铁冶炼AI视觉识别10 图表20:自动驾驶汽车所需传感器10 图表21:智能驾驶识别11 图表22:智能交互11 一、MetaSAM登上舞台,CV领域浪潮已至 1.1Meta发布图像分割AI模型SAM,掀起CV新革命 SAM正式亮相,计算机视觉领域迎来革命性突破。2023年4月6日,Meta正式发布SegmentAnythingModel(SAM)AI模型,其本质上是一种图像分割模型,但最大的升级在于可以根据任何提示prompt(点击、框、文本等)从照片或视频中对任意对象实现 一键分割,这意味着SAM模型学会了“什么是物体”这一在计算机视觉领域(Computervision,CV)的核心能力,并将自然语言处理领域(NaturalLanguageProcessing,NLP)的prompt范式延展到CV领域,属于革命性的技术突破,英伟达AI科学家JimFan认为这是CV领域的“GPT-3时刻”。我们可以从MetaAI研究部门最新发布的论文中对SAM模型做一个初步了解,该模型主要由三部分组成: 1)任务(Task):定义为“可提示的分割任务”,目的是在任何给定的分割提示下得到一个有效的分割掩膜,此处的掩膜是指使用特定的图形对需要处理的图像中的某个区域进行遮挡,而分割提示可以是背景点、粗框、自由格式文本,或者是能代表用户想要在图像中分割出的任何信息。 2)模型(Model):由“提示编码器”+“图像编码器”+“掩膜解码器”组成,其中“提示编码器”将用户输入的提示实时转换为嵌入向量,“图像编码器”为图像生成一次性嵌入,然后在“掩膜解码器”的结合下输出有效的分割掩膜,输出速度达到近乎实时的50ms。3)数据(Data):包含顶层的数据引擎(dataengine)和底层的数据集(dataset),其中数据引擎从辅助手动到半自动,再到全自动阶段,不断使用新标注的数据对模型进行训练以完成迭代,从而生成了最终数据集SegmentAnything1B(SA-1B),其包含了超过10亿个掩膜和1100万张经过许可且受到隐私保护的图像。 图表1:SAM模型的三大构成 资料来源:SegmentAnything,Meta(2023),国盛证券研究所 图表2:SA-1B拥有的图像数量比任何现有数据集多6倍以上图表3:SA-1B拥有的掩膜数量比任何现有数据集多400倍以上 资料来源:MetaAI,国盛证券研究所资料来源:MetaAI,国盛证券研究所 1.2SAM融合交互式分割和自动分割,“零样本迁移”实现万物可分割 SAM融合两种分割方法实现分割一切,充分赋能下游视觉识别领域。我们看到,分割作为CV领域的核心任务的最后一环,一般需要技术专家在大量不同领域的标注数据的基 础上,通过高度专业化的工作为特定任务创建准确的分割模型,由此可见图像分割工作的难度之高,其发展也一直处处受限。在SAM出现之前,CV领域针对图像分割一般有两种方法:1)交互式分割:允许分割任何类别的对象,但需要通过人工来迭代细化掩膜;2)自动分割:允许分割提前定义的特定对象类别,但需要借助大量的手动注释对象来进行训练。可以看到,以上两种方法都没有提供一种通用且全自动的分割方法。但是,SAM很好地融合了这两种分割方法,可以轻松地执行交互式分割和自动分割。最为重要的是,该模型已经学会了关于物体的一般概念,即使遇到没有训练过的图像类型,也可以在新 的图像领域实现分割效果,而无需再进行额外的训练。我们认为,SAM模型这种“零样本迁移”能力将为机器视觉、自动驾驶、VR/AR等视觉识别领域带来黄金发展机遇。 图表4:计算机视觉四大核心任务——分类、定位、检测、分割 资料来源:《cs231n课程》,国盛证券研究所 图表5:SAM模型融合交互式分割和自动分割 交互式分割 自动分割 MetaSAM——分割一切 相互 融合 资料来源:《DeeplearningforthefullyautomatedsegmentationoftheinnerearonMRI》,《Large-scaleinteractiveobjectsegmentationwithhumanannotators》,Encord,MetaAI,国盛证券研究所 二、计算机视觉领域的“GPT-3时刻”之一 算法为机器视觉的“大脑”。机器视觉具有识别、定位、测量、检测四大功能,相比人类视觉优势显著。算法能实现图像分割、特征提取、图像增强等功能,是工业机器视觉的大脑。 图表6:机器视觉产业图谱 资料来源:凌云光招股说明书,国盛证券研究所 随着人们工作、生活智能化的不断推进,作为智能化承载者摄像头,充当起了非常重要的“眼”的作用。在完成图像和视频拍摄后,通过数据学习,通过对大量不同类型、尺寸、 大小的样本进行深度学习,能够在各种环境下智能识别出物体,即使图像中的物体可能千变万化(大小、尺寸不同,位置、空间不同,整体、局部不同等)。希望随识别技术能全面、自动地检测出当前环境并分析出是何物、何时、何地。比如图片拍摄的对象是人物、宠物还是其他事物;拍摄的场景是海滩、雪景还是乡村环境;拍摄时间是白天还是夜晚这样的具体时间等等。当识别足够精准且快速后,用户可以在它被拍摄的环境下更容易地查找和索引具体内容。 图表7:图像中对象识别图表8:图像中环境识别 资料来源:虹软,国盛证券研究所资料来源:虹软,国盛证券研究所 SAM赋能,机器视觉加速渗透率。国内厂商多基于OpenCV等开发工具包进行二次开发,而SAM的出现减少了针对图像分割所需要的专业建模技能、训练计算和定制数据标注,同时大幅缩短分割和标注的时间,将大幅推动机器视觉在表面缺陷检测、标签检查、 检测分选等领域的发展。同时传统计算机视觉系统一般是通过二维的图像来认识世界,但实际上三维视觉才是人类感知、理解世界的正确方式。最近几年,随着双摄头技术、消费级深度相机在手机、平板电脑等移动设备的快速普及,以三维视觉为基础技术越来越成为视觉领域的核心竞争力,而通过SAM及其衍生模型,有望快速丰富下游行业覆盖场景。 图表9:机器视觉算法概览 资料来源:OpenCV,国盛证券研究所 三、SAM及其衍生模型,有望快速深度赋能行业应用 1)传统消费电子领域 苹果设备通过硬件上长焦相机、广角相机、3D结构光及DTOFSensor等技术已快速布 局图像识别及图像处理领域,现今可以完成如人脸解锁,3D空间扫描,视频动态捕捉等基础拍摄功能,在后处理端可以对拍摄文字进行提取编辑,捕捉拍摄图片中特定对象进行提取编辑等功能。 图表10:IPADPro搭配长焦、广角、激光雷达扫描镜头图表11:IPADPro现实增强功能 资料来源:苹果,国盛证券研究所资料来源:苹果,国盛证券研究所 AIoT设备同样具备基于图像及空间识别检测来提供库存支付管理,环境检测、避障等功能,如智慧零售支付设备、家居AIoT设备、无人机设备等。从简单的算法代码驱动逐渐成为视觉自适应驱动,检测处理更多应用场景。 图表12:智慧零售支付应用图表13:服务机器人识别环境物体 资料来源:虹软,国盛证券研究所资料来源:虹软,国盛证券研究所 2)AR/VR领域 降本增效,SA