事项: 2023 年 4 月 6 日 Meta 宣布推出 Segment Anything Model 工具,可准确识别图像中的对象。该项目包括模型、数据集,并以较为宽松的 Apache 2.0 许可下允许他人使用。该模型能够根据文本指令等方式实现图像分割,而且万物皆可识别和一键抠图,有望对人工智能 CV 领域产生重大影响。 国信计算机观点:1)Meta 推出 SAM 模型,图像分割效果卓群,SAM 允许用户以灵活的方式进行图像分割。 以往机器视觉的识别算法,需要对特定对象的大量标注和训练。SAM 模型对此升级,具备“零样本”或者“少样本”泛化能力,可类比 ChatGPT 在语言领域的应用和突破。2)Meta 发布有史以来最大的分割数据集 SA-1B,得益于基础模型中 prompt 的引入,SAM 模型数据集的收集速度和体量均有大幅提升。3)SAM 开源将大幅提升 CV 产业能力,机器视觉产业将全面受益于 SAM 模型发展;同时结合大语言模型的快速发展,多模态 AI 应用有望加速。5)投资建议:建议关注机器视觉、多模态 AI 产业,包括视觉内容生成、VR、AR 等领域,重点关注海康威视、萤石网络、千方科技、虹软科技、当虹科技等。5)风险提示:国内 AI 技术和应用发展不及预期;宏观经济下滑影响 IT 支出;AI 应用相关政策和法律推进缓慢。 评论: Meta 发布 SAM 模型,CV 领域迎来迎来 GPT-3 时刻 Meta 推出 SAM 模型,图像分割效果卓群。分割作为计算机视觉的核心任务,已经得到广泛应用,但是以往该任务需要大量数据标注和高度专业化的工作。Meta 发布的 SAM 可以识别图像和视频中的任何物体,即使是在此前的训练过程中从未遇到过。目前 SAM 能很好的自动分割图像中的所有内容,还能根据提示词进行图像分割。Meta 内部已经使用了与 SAM 类似的技术,用于标记照片、审核违禁内容以及确定向 Facebook和 Instagram 用户推荐哪些帖子等活动。 图1:SAM 对图像的分割 图2:SAM 根据提示词进行图像分割 SAM 对图像分割技术形成突破。图像分割主要有 2 种解决方法:第一种是交互式分割,该方法允许分割任何类别的对象,但需要一个人通过迭代细化掩码来指导该方法;第二种是自动分割,允许分割提前定义的特定对象类别(例如,猫或椅子),但需要大量的手动注释对象来训练(如数万个分割猫的例子)。SAM很好的结合了两种方法,以一个单一的模型,实现交互式分割和自动分割。SAM 允许用户以灵活的方式使用它,只需为模型设计正确的提示(点击、boxes、文本等),就可以完成范围广泛的分割任务,这种灵活性在图像分割领域尚属首创。 在工作原理层面,图像编码器会为图像生成一次性嵌入,而轻量级编码器则将所有提示实时转换为嵌入向量。之后,将这两个信息源组合在一个负责预测分割掩码的轻量级解码器内。在计算图像嵌入之后,SAM 能够在 50 毫秒内根据网络浏览器中的任意提示生成相应分割。 图3:SAM 的通用分割模型 Meta 发布有史以来最大的分割数据集 SA-1B 数据集同样是 SAM 模型成的关键。Meta 还发布了一个图像注释数据集 Segment Anything 1-Billion mask(SA-1B),该数据集包含超 11 亿个掩码,据称是同类数据集中最大的。得益于当前基础模型中 prompt的引入,Meta AI 团队也将该技术应用于对新数据集和任务执行零样本和少样本学习。本次数据收集是由SAM 完成,标注者使用 SAM 以交互方式标记图像,之后使用新标注的数据依次更新 SAM。通过多次重复此循环,以迭代方式改进模型和数据集。SAM 收集分割掩码的速度大幅提升,只需约 14 秒即可以交互方式标注掩码;与之前的大规模分割数据收集工作相比,SAM 模型速度提升了数倍。SAM 数据集包含从约 1100万许可和隐私保护图像上收集到的超 11 亿个分割掩码。SA-1B 的掩码比任何现有分割数据集都多出 400倍;且经过评估,这些掩码的质量和多样性均保持较高水平。 图4:SAM 收集分割掩码的速度大幅提升 图5: Meta 开源 SAM 模型,多模态 AI 应用可期 SAM 开源将大幅提升 CV 产业能力。Meta 对 SAM 模型从数据集到训练代码和预训练结果完全开源,有望大幅提升产业应用生态。英伟达人工智能科学家 Jim Fan 表示,SAM 的能力可类比为计算机视觉领域的 GPT-3时刻,SAM 已经了解物体的一般概念,即使对于未知对象、不熟悉的场景和模棱两可的情况下也能进行很好的图像分割。SAM 已经足够通用,可以覆盖广泛的用例,具备零样本千亿能力,在新的图像领域实现即开即用,而无需额外训练。SAM 的开源将带动 CV 产业再次跃升。 机器视觉产业将全面受益于 SAM 模型发展。图像分割即识别出图像中的哪些像素隶属于同一对象,是计算机视觉领域的一项核心任务。当前智能摄像机的人脸、车牌、物体的识别均是图像分割的应用。以往机器视觉的识别算法,需要对特定对象的大量标注和训练。SAM 模型对此升级,具备“零样本”或者“少样本”泛化能力,可类比 ChatGPT 在语言领域的应用和突破。机器视觉产业能力有望大幅提升。 SAM 将推动多模态 AI 应用发展。多模态指的是多种模态的信息,包括:文本、图像、视频、音频等。多模态研究的就是这些不同类型的数据的融合的问题,例如通过 NLP 的预训练模型,可以得到文本的嵌入表示; 再结合图像和视觉领域的预训练模型,可以得到图像的嵌入表示。当前发展火热的 GPT-4,主要是基于大语言模型的语言和文字维度;结合当前 SAM 模型的视频和图像维度,多模态 AI 融合可期。 SAM 模型各类应用有望逐步爆发。Meta 仍在持续提升图像分割的能力,尤其是可提示的分割模型,Meta希望基于 prompt 工程等技术的可组合系统设计将支持更广泛的应用。目前除了 Meta 在内部标记照片等使用场景外,SAM 还可以成为 AR、VR、内容创建、科学领域和更通用 AI 系统的强大组件,例如通过 AR 眼镜识别日常物品等。 投资建议: Meta 推出 SAM 模型,其卓越的图像分割能力将对机器视觉产业造成深远影响。SAM 模型能够在“零样本”或者“少样本”具备对未知物体的识别,有望颠覆传统的 CV 发展路径;尤其是其开源的背景下,全球机器视觉产业均迎来 GPT-3 时刻。同时,SAM 模型以视频和图像识别为方向,结合当前快速发展的大语言模型,多模态 AI 融合发展可期。因此,我们建议关注机器视觉、多模态 AI 产业,包括视觉内容生成、VR、AR 等领域,重点关注海康威视、萤石网络、千方科技、虹软科技、当虹科技等。 风险提示: 国内 AI 技术和应用发展不及预期;宏观经济下滑影响 IT 支出;AI 应用相关政策和法律推进缓慢。 免责声明