您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国信证券]:人工智能行业点评:SAM模型带来图像分割的GPT~3时刻,机器视觉和多模态AI迎突破 - 发现报告
当前位置:首页/行业研究/报告详情/

人工智能行业点评:SAM模型带来图像分割的GPT~3时刻,机器视觉和多模态AI迎突破

信息技术2023-04-10国信证券为***
人工智能行业点评:SAM模型带来图像分割的GPT~3时刻,机器视觉和多模态AI迎突破

请务必阅读正文之后的免责声明及其项下所有内容证券研究报告|2023年04月10日超配1人工智能行业点评SAM模型带来图像分割的GPT-3时刻,机器视觉和多模态AI迎突破行业研究·行业快评计算机投资评级:超配(维持评级)证券分析师:熊莉021-61761067xiongli1@guosen.com.cn执证编码:S0980519030002证券分析师:胡剑021-60893306hujian1@guosen.com.cn执证编码:S0980521080001证券分析师:库宏垚021-60875168kuhongyao@guosen.com.cn执证编码:S0980520010001事项:2023年4月6日Meta宣布推出SegmentAnythingModel工具,可准确识别图像中的对象。该项目包括模型、数据集,并以较为宽松的Apache2.0许可下允许他人使用。该模型能够根据文本指令等方式实现图像分割,而且万物皆可识别和一键抠图,有望对人工智能CV领域产生重大影响。国信计算机观点:1)Meta推出SAM模型,图像分割效果卓群,SAM允许用户以灵活的方式进行图像分割。以往机器视觉的识别算法,需要对特定对象的大量标注和训练。SAM模型对此升级,具备“零样本”或者“少样本”泛化能力,可类比ChatGPT在语言领域的应用和突破。2)Meta发布有史以来最大的分割数据集SA-1B,得益于基础模型中prompt的引入,SAM模型数据集的收集速度和体量均有大幅提升。3)SAM开源将大幅提升CV产业能力,机器视觉产业将全面受益于SAM模型发展;同时结合大语言模型的快速发展,多模态AI应用有望加速。5)投资建议:建议关注机器视觉、多模态AI产业,包括视觉内容生成、VR、AR等领域,重点关注海康威视、萤石网络、千方科技、虹软科技、当虹科技等。5)风险提示:国内AI技术和应用发展不及预期;宏观经济下滑影响IT支出;AI应用相关政策和法律推进缓慢。评论:Meta发布SAM模型,CV领域迎来迎来GPT-3时刻Meta推出SAM模型,图像分割效果卓群。分割作为计算机视觉的核心任务,已经得到广泛应用,但是以往该任务需要大量数据标注和高度专业化的工作。Meta发布的SAM可以识别图像和视频中的任何物体,即使是在此前的训练过程中从未遇到过。目前SAM能很好的自动分割图像中的所有内容,还能根据提示词进行图像分割。Meta内部已经使用了与SAM类似的技术,用于标记照片、审核违禁内容以及确定向Facebook和Instagram用户推荐哪些帖子等活动。图1:SAM对图像的分割图2:SAM根据提示词进行图像分割资料来源:机器之心,国信证券经济研究所整理资料来源:机器之心,国信证券经济研究所整理 请务必阅读正文之后的免责声明及其项下所有内容证券研究报告2SAM对图像分割技术形成突破。图像分割主要有2种解决方法:第一种是交互式分割,该方法允许分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法;第二种是自动分割,允许分割提前定义的特定对象类别(例如,猫或椅子),但需要大量的手动注释对象来训练(如数万个分割猫的例子)。SAM很好的结合了两种方法,以一个单一的模型,实现交互式分割和自动分割。SAM允许用户以灵活的方式使用它,只需为模型设计正确的提示(点击、boxes、文本等),就可以完成范围广泛的分割任务,这种灵活性在图像分割领域尚属首创。在工作原理层面,图像编码器会为图像生成一次性嵌入,而轻量级编码器则将所有提示实时转换为嵌入向量。之后,将这两个信息源组合在一个负责预测分割掩码的轻量级解码器内。在计算图像嵌入之后,SAM能够在50毫秒内根据网络浏览器中的任意提示生成相应分割。图3:SAM的通用分割模型资料来源:Meta,国信证券经济研究所整理Meta发布有史以来最大的分割数据集SA-1B数据集同样是SAM模型成的关键。Meta还发布了一个图像注释数据集SegmentAnything1-Billionmask(SA-1B),该数据集包含超11亿个掩码,据称是同类数据集中最大的。得益于当前基础模型中prompt的引入,MetaAI团队也将该技术应用于对新数据集和任务执行零样本和少样本学习。本次数据收集是由SAM完成,标注者使用SAM以交互方式标记图像,之后使用新标注的数据依次更新SAM。通过多次重复此循环,以迭代方式改进模型和数据集。SAM收集分割掩码的速度大幅提升,只需约14秒即可以交互方式标注掩码;与之前的大规模分割数据收集工作相比,SAM模型速度提升了数倍。SAM数据集包含从约1100万许可和隐私保护图像上收集到的超11亿个分割掩码。SA-1B的掩码比任何现有分割数据集都多出400倍;且经过评估,这些掩码的质量和多样性均保持较高水平。 1ZaUpZwVoPsQrNtRsR8OcM7NmOmMtRpMfQrRnRfQoPoO7NrQqPNZpOrQwMmNzQ请务必阅读正文之后的免责声明及其项下所有内容证券研究报告3图4:SAM收集分割掩码的速度大幅提升图5:资料来源:Meta,国信证券经济研究所整理资料来源:Meta,国信证券经济研究所整理Meta开源SAM模型,多模态AI应用可期SAM开源将大幅提升CV产业能力。Meta对SAM模型从数据集到训练代码和预训练结果完全开源,有望大幅提升产业应用生态。英伟达人工智能科学家JimFan表示,SAM的能力可类比为计算机视觉领域的GPT-3时刻,SAM已经了解物体的一般概念,即使对于未知对象、不熟悉的场景和模棱两可的情况下也能进行很好的图像分割。SAM已经足够通用,可以覆盖广泛的用例,具备零样本千亿能力,在新的图像领域实现即开即用,而无需额外训练。SAM的开源将带动CV产业再次跃升。机器视觉产业将全面受益于SAM模型发展。图像分割即识别出图像中的哪些像素隶属于同一对象,是计算机视觉领域的一项核心任务。当前智能摄像机的人脸、车牌、物体的识别均是图像分割的应用。以往机器视觉的识别算法,需要对特定对象的大量标注和训练。SAM模型对此升级,具备“零样本”或者“少样本”泛化能力,可类比ChatGPT在语言领域的应用和突破。机器视觉产业能力有望大幅提升。SAM将推动多模态AI应用发展。多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。多模态研究的就是这些不同类型的数据的融合的问题,例如通过NLP的预训练模型,可以得到文本的嵌入表示;再结合图像和视觉领域的预训练模型,可以得到图像的嵌入表示。当前发展火热的GPT-4,主要是基于大语言模型的语言和文字维度;结合当前SAM模型的视频和图像维度,多模态AI融合可期。SAM模型各类应用有望逐步爆发。Meta仍在持续提升图像分割的能力,尤其是可提示的分割模型,Meta希望基于prompt工程等技术的可组合系统设计将支持更广泛的应用。目前除了Meta在内部标记照片等使用场景外,SAM还可以成为AR、VR、内容创建、科学领域和更通用AI系统的强大组件,例如通过AR眼镜识别日常物品等。投资建议:Meta推出SAM模型,其卓越的图像分割能力将对机器视觉产业造成深远影响。SAM模型能够在“零样本”或者“少样本”具备对未知物体的识别,有望颠覆传统的CV发展路径;尤其是其开源的背景下,全球机器视觉产业均迎来GPT-3时刻。同时,SAM模型以视频和图像识别为方向,结合当前快速发展的大语言模型,多模态AI融合发展可期。因此,我们建议关注机器视觉、多模态AI产业,包括视觉内容生成、VR、AR等领域,重点关注海康威视、萤石网络、千方科技、虹软科技、当虹科技等。 请务必阅读正文之后的免责声明及其项下所有内容证券研究报告4风险提示:国内AI技术和应用发展不及预期;宏观经济下滑影响IT支出;AI应用相关政策和法律推进缓慢。相关研究报告:《人工智能行业点评-清华和蚂蚁携手AI安全合作,数据安全和AI监管是重要基础》——2023-04-10《计算机行业2023年4月投资策略-BloombergGPT发布,建议关注具有数据优势的细分龙头》——2023-04-02《人工智能专题报告——生成式人工智能产业全梳理》——2023-03-28《人工智能行业点评-英伟达GPU、DGX云、AI工厂三驾马车发布,AI算力和应用再迎跃迁》——2023-03-26《人工智能行业点评-OpenAI访问限流,GPT-4算力测算》——2023-03-20 证券研究报告免责声明分析师声明作者保证报告所采用的数据均来自合规渠道;分析逻辑基于作者的职业理解,通过合理判断并得出结论,力求独立、客观、公正,结论不受任何第三方的授意或影响;作者在过去、现在或未来未就其研究报告所提供的具体建议或所表述的意见直接或间接收取任何报酬,特此声明。国信证券投资评级类别级别说明股票投资评级买入股价表现优于市场指数20%以上增持股价表现优于市场指数10%-20%之间中性股价表现介于市场指数±10%之间卖出股价表现弱于市场指数10%以上行业投资评级超配行业指数表现优于市场指数10%以上中性行业指数表现介于市场指数±10%之间低配行业指数表现弱于市场指数10%以上重要声明本报告由国信证券股份有限公司(已具备中国证监会许可的证券投资咨询业务资格)制作;报告版权归国信证券股份有限公司(以下简称“我公司”)所有。本报告仅供我公司客户使用,本公司不会因接收人收到本报告而视其为客户。未经书面许可,任何机构和个人不得以任何形式使用、复制或传播。任何有关本报告的摘要或节选都不代表本报告正式完整的观点,一切须以我公司向客户发布的本报告完整版本为准。本报告基于已公开的资料或信息撰写,但我公司不保证该资料及信息的完整性、准确性。本报告所载的信息、资料、建议及推测仅反映我公司于本报告公开发布当日的判断,在不同时期,我公司可能撰写并发布与本报告所载资料、建议及推测不一致的报告。我公司不保证本报告所含信息及资料处于最新状态;我公司可能随时补充、更新和修订有关信息及资料,投资者应当自行关注相关更新和修订内容。我公司或关联机构可能会持有本报告中所提到的公司所发行的证券并进行交易,还可能为这些公司提供或争取提供投资银行、财务顾问或金融产品等相关服务。本公司的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中意见或建议不一致的投资决策。本报告仅供参考之用,不构成出售或购买证券或其他投资标的要约或邀请。在任何情况下,本报告中的信息和意见均不构成对任何个人的投资建议。任何形式的分享证券投资收益或者分担证券投资损失的书面或口头承诺均为无效。投资者应结合自己的投资目标和财务状况自行判断是否采用本报告所载内容和信息并自行承担风险,我公司及雇员对投资者使用本报告及其内容而造成的一切后果不承担任何法律责任。证券投资咨询业务的说明本公司具备中国证监会核准的证券投资咨询业务资格。证券投资咨询,是指从事证券投资咨询业务的机构及其投资咨询人员以下列形式为证券投资人或者客户提供证券投资分析、预测或者建议等直接或者间接有偿咨询服务的活动:接受投资人或者客户委托,提供证券投资咨询服务;举办有关证券投资咨询的讲座、报告会、分析会等;在报刊上发表证券投资咨询的文章、评论、报告,以及通过电台、电视台等公众传播媒体提供证券投资咨询服务;通过电话、传真、电脑网络等电信设备系统,提供证券投资咨询服务;中国证监会认定的其他形式。发布证券研究报告是证券投资咨询业务的一种基本形式,指证券公司、证券投资咨询机构对证券及证券相关产品的价值、市场走势或者相关影响因素进行分析,形成证券估值、投资评级等投资分析意见,制作证券研究报告,并向客户发布的行为。 证券研究报告国信证券经济研究所深圳深圳市福田区福华一路125号国信金融大厦36层邮编:518046总机:0755-82130833上海上海浦东民生路1199弄证大五道口广场1号楼12层邮编:200135北京北京西城区金融大街兴盛街6号国信证券9层邮编:100032