热门搜索：

人工智能行业点评：SAM模型带来图像分割的GPT~3时刻，机器视觉和多模态AI迎突破

信息技术2023-04-10国信证券为***

AI智能总结

Meta 推出 Segment Anything Model (SAM)：革新图像分割与人工智能视觉领域

主要亮点与影响：

SAM 模型与数据集：
- Meta 发布了 Segment Anything Model（SAM），一种强大的图像分割工具，可在各种场景下准确识别图像中的对象。
- SAM 模型与数据集（SA-1B）采用 Apache 2.0 许可协议，允许更广泛的使用与创新。
- SA-1B 是有史以来最大的分割数据集，包含超过 11 亿个分割掩码，显著提升了模型的训练与应用潜力。
技术创新：
- SAM 结合了交互式分割与自动分割的优点，实现了一种灵活、高效的工作流程。
- 使用图像编码器与轻量级编码器，SAM 能快速响应用户提示，生成相应分割结果，计算效率高。
- 通过集成提示机制，SAM 提高了数据收集速度和质量，大幅降低了人工标注成本。
行业影响：
- SAM 开源将极大促进计算机视觉（CV）产业的发展，加速多模态 AI 应用的创新。
- CV 产业将全面受益于 SAM 的开放性与创新性，推动图像分割、人脸识别、物体识别等领域技术进步。
- 多模态 AI 应用有望加速，结合大语言模型的快速发展，带来全新的应用场景与解决方案。
投资建议：
- 关注机器视觉、多模态 AI 相关领域，包括视觉内容生成、VR、AR 等，特别是海康威视、萤石网络、千方科技、虹软科技、当虹科技等公司。
风险提示：
- 国内 AI 技术及应用发展可能受限，宏观经济波动可能影响 IT 支出。
- AI 应用相关法律法规的推进速度可能影响技术的商业化进程。

结论：

Meta 的 Segment Anything Model（SAM）不仅革新了图像分割技术，还为人工智能视觉领域带来了重大变革。通过其强大的功能与开放的许可策略，SAM 正在推动整个产业向前发展，特别是在多模态 AI 应用方面展现出巨大潜力。投资机会与风险并存，企业应密切关注这一技术动态，适时调整战略以把握市场机遇。

人工智能行业点评：SAM模型带来图像分割的GPT~3时刻，机器视觉和多模态AI迎突破

事项： 2023 年 4 月 6 日 Meta 宣布推出 Segment Anything Model 工具，可准确识别图像中的对象。该项目包括模型、数据集，并以较为宽松的 Apache 2.0 许可下允许他人使用。该模型能够根据文本指令等方式实现图像分割，而且万物皆可识别和一键抠图，有望对人工智能 CV 领域产生重大影响。国信计算机观点：1）Meta 推出 SAM 模型，图像分割效果卓群，SAM 允许用户以灵活的方式进行图像分割。以往机器视觉的识别算法，需要对特定对象的大量标注和训练。SAM 模型对此升级，具备“零样本”或者“少样本”泛化能力，可类比 ChatGPT 在语言领域的应用和突破。2）Meta 发布有史以来最大的分割数据集 SA-1B，得益于基础模型中 prompt 的引入，SAM 模型数据集的收集速度和体量均有大幅提升。3）SAM 开源将大幅提升 CV 产业能力，机器视觉产业将全面受益于 SAM 模型发展；同时结合大语言模型的快速发展，多模态 AI 应用有望加速。5）投资建议：建议关注机器视觉、多模态 AI 产业，包括视觉内容生成、VR、AR 等领域，重点关注海康威视、萤石网络、千方科技、虹软科技、当虹科技等。5）风险提示：国内 AI 技术和应用发展不及预期；宏观经济下滑影响 IT 支出；AI 应用相关政策和法律推进缓慢。评论： Meta 发布 SAM 模型，CV 领域迎来迎来 GPT-3 时刻 Meta 推出 SAM 模型，图像分割效果卓群。分割作为计算机视觉的核心任务，已经得到广泛应用，但是以往该任务需要大量数据标注和高度专业化的工作。Meta 发布的 SAM 可以识别图像和视频中的任何物体，即使是在此前的训练过程中从未遇到过。目前 SAM 能很好的自动分割图像中的所有内容，还能根据提示词进行图像分割。Meta 内部已经使用了与 SAM 类似的技术，用于标记照片、审核违禁内容以及确定向 Facebook和 Instagram 用户推荐哪些帖子等活动。图1：SAM 对图像的分割图2：SAM 根据提示词进行图像分割 SAM 对图像分割技术形成突破。图像分割主要有 2 种解决方法：第一种是交互式分割，该方法允许分割任何类别的对象，但需要一个人通过迭代细化掩码来指导该方法；第二种是自动分割，允许分割提前定义的特定对象类别（例如，猫或椅子），但需要大量的手动注释对象来训练（如数万个分割猫的例子）。SAM很好的结合了两种方法，以一个单一的模型，实现交互式分割和自动分割。SAM 允许用户以灵活的方式使用它，只需为模型设计正确的提示（点击、boxes、文本等），就可以完成范围广泛的分割任务，这种灵活性在图像分割领域尚属首创。在工作原理层面，图像编码器会为图像生成一次性嵌入，而轻量级编码器则将所有提示实时转换为嵌入向量。之后，将这两个信息源组合在一个负责预测分割掩码的轻量级解码器内。在计算图像嵌入之后，SAM 能够在 50 毫秒内根据网络浏览器中的任意提示生成相应分割。图3：SAM 的通用分割模型 Meta 发布有史以来最大的分割数据集 SA-1B 数据集同样是 SAM 模型成的关键。Meta 还发布了一个图像注释数据集 Segment Anything 1-Billion mask（SA-1B），该数据集包含超 11 亿个掩码，据称是同类数据集中最大的。得益于当前基础模型中 prompt的引入，Meta AI 团队也将该技术应用于对新数据集和任务执行零样本和少样本学习。本次数据收集是由SAM 完成，标注者使用 SAM 以交互方式标记图像，之后使用新标注的数据依次更新 SAM。通过多次重复此循环，以迭代方式改进模型和数据集。SAM 收集分割掩码的速度大幅提升，只需约 14 秒即可以交互方式标注掩码；与之前的大规模分割数据收集工作相比，SAM 模型速度提升了数倍。SAM 数据集包含从约 1100万许可和隐私保护图像上收集到的超 11 亿个分割掩码。SA-1B 的掩码比任何现有分割数据集都多出 400倍；且经过评估，这些掩码的质量和多样性均保持较高水平。图4：SAM 收集分割掩码的速度大幅提升图5： Meta 开源 SAM 模型，多模态 AI 应用可期 SAM 开源将大幅提升 CV 产业能力。Meta 对 SAM 模型从数据集到训练代码和预训练结果完全开源，有望大幅提升产业应用生态。英伟达人工智能科学家 Jim Fan 表示，SAM 的能力可类比为计算机视觉领域的 GPT-3时刻，SAM 已经了解物体的一般概念，即使对于未知对象、不熟悉的场景和模棱两可的情况下也能进行很好的图像分割。SAM 已经足够通用，可以覆盖广泛的用例，具备零样本千亿能力，在新的图像领域实现即开即用，而无需额外训练。SAM 的开源将带动 CV 产业再次跃升。机器视觉产业将全面受益于 SAM 模型发展。图像分割即识别出图像中的哪些像素隶属于同一对象，是计算机视觉领域的一项核心任务。当前智能摄像机的人脸、车牌、物体的识别均是图像分割的应用。以往机器视觉的识别算法，需要对特定对象的大量标注和训练。SAM 模型对此升级，具备“零样本”或者“少样本”泛化能力，可类比 ChatGPT 在语言领域的应用和突破。机器视觉产业能力有望大幅提升。 SAM 将推动多模态 AI 应用发展。多模态指的是多种模态的信息，包括：文本、图像、视频、音频等。多模态研究的就是这些不同类型的数据的融合的问题，例如通过 NLP 的预训练模型，可以得到文本的嵌入表示；再结合图像和视觉领域的预训练模型，可以得到图像的嵌入表示。当前发展火热的 GPT-4，主要是基于大语言模型的语言和文字维度；结合当前 SAM 模型的视频和图像维度，多模态 AI 融合可期。 SAM 模型各类应用有望逐步爆发。Meta 仍在持续提升图像分割的能力，尤其是可提示的分割模型，Meta希望基于 prompt 工程等技术的可组合系统设计将支持更广泛的应用。目前除了 Meta 在内部标记照片等使用场景外，SAM 还可以成为 AR、VR、内容创建、科学领域和更通用 AI 系统的强大组件，例如通过 AR 眼镜识别日常物品等。投资建议： Meta 推出 SAM 模型，其卓越的图像分割能力将对机器视觉产业造成深远影响。SAM 模型能够在“零样本”或者“少样本”具备对未知物体的识别，有望颠覆传统的 CV 发展路径；尤其是其开源的背景下，全球机器视觉产业均迎来 GPT-3 时刻。同时，SAM 模型以视频和图像识别为方向，结合当前快速发展的大语言模型，多模态 AI 融合发展可期。因此，我们建议关注机器视觉、多模态 AI 产业，包括视觉内容生成、VR、AR 等领域，重点关注海康威视、萤石网络、千方科技、虹软科技、当虹科技等。风险提示：国内 AI 技术和应用发展不及预期；宏观经济下滑影响 IT 支出；AI 应用相关政策和法律推进缓慢。免责声明

点击免费查看完整报告

你可能感兴趣

人工智能行业点评：SAM模型带来图像分割的GPT~3时刻，机器视觉和多模态AI迎突破

Meta 推出 Segment Anything Model (SAM)：革新图像分割与人工智能视觉领域

主要亮点与影响：

结论：

你可能感兴趣

行业点评报告：ChatGPT推出语音和图像功能，多模态AI加速突破

【财联社早知道】谷歌Gemini AI新计划曝光，多模态不断突破或推动AI应用打开商业化空间，这家公司的多媒体大模型涵盖语言、音频、图像、视频等多模态能力

多模态GPT的号角：SAM

人工智能行业专题：SAM带领CV领域技术突破，赋能多场景AI应用

【公告全知道】多模态大模型+AI视频+信创+云计算！公司多模态大模型、AIGC图像大模型和行业大模型已初具雏形