热门搜索：

多模态GPT的号角：SAM

信息技术2023-04-08刘高畅国盛证券上***

AI智能总结

SAM的技术特点与贡献

高效模型结构：SAM采用图像编码器快速生成图像编码，并结合轻量级编码器实时转换提示，最终在轻量级解码器中组合图像编码和提示编码，预测分割掩码。
大规模训练数据集：SAM利用了包含1100万张图像和11亿个分割掩码的训练数据集SA-1B，该数据集的规模是现有分割数据集的6倍，分割掩码数量是400倍，显著提高了模型的泛化能力。
泛化能力：SAM展示了强大的多模态技术路径和泛化能力，类似于计算机视觉领域的GPT-3，能够对未见过的物体和图像进行零样本泛化，无需额外训练。

应用前景与多模态技术发展

AI系统整合：SAM的出现为构建更通用的多模态理解系统提供了可能，如理解网页的视觉和文本内容、在AR/VR中选择并“提升”对象至三维空间、内容创作者利用SAM提取图像区域进行拼贴或视频编辑、以及动物或物体在视频中的跟踪和研究。
多模态应用展望：当前多模态技术主要应用于文本、图像和音频的交互，但在智能办公、AI绘画、AI音乐创作、看图写稿等领域展现出巨大潜力。预计在未来1-5年内，通用视觉、通用机械臂、智能家居等将更加普及，而在5-10年内，结合复杂多模态方案的大模型将具备与世界交互的能力，应用于通用机器人和虚拟现实等领域。

投资建议与风险提示

关注公司：考虑在图像分割、多模态应用、算力提供等方面进行投资，推荐关注大华股份、海康威视、云从科技、千方科技、商汤科技等模型及应用公司，以及当虹科技、万兴科技、星环科技等工具厂商，以及英伟达、海光信息、寒武纪、中科曙光等算力供应商。
风险提示：AI技术迭代风险、经济下行风险、行业竞争加剧风险，需密切关注技术进展和市场动态，以应对潜在挑战。

Meta发布SAM，零样本分割图像中一切对象。4月6号，Meta发布Segment Anything Model（SAM），该模型可以用于分割图像中的一切对象，即使是训练数据中没有见过的对象，可直接在网页体验:https://segment-anything.com/demo。SAM可以使用各种输入提示包括点击，框选和文字，指定要在图像中分割的内容，并且可以灵活集成其他系统，比如将AR/VR头盔的用户视线作为提示来选择对象，也可以将分割输出用作其他AI系统的输入，用于3D建模等任务。模型设计高效灵活，每个提示只需要几毫秒就能在浏览器中运行，并且Meta开源了SAM的模型和包含1100万张图像和11亿个掩码的训练数据集。 SAM初步验证了多模态技术路径及其泛化能力，相当于计算机视觉领域的 GPT-3。英伟达人工智能科学家Jim Fan认为Meta的这项研究是计算机视觉领域的“GPT-3时刻”之一。SAM是通用的分割方法，已经学会了物体是什么的一般概念，可以对不熟悉的物体和图像进行零样本泛化，而无需额外的训练。GPT-3系列模型可以使用“提示”技术对新数据集和任务执行零样本和少样本学习，SAM从中获得灵感将提示技术用于图像分割。展望将来， SAM可以成为更大的AI系统的一个组成部分，用于对世界做更通用的多模态理解，例如，理解网页的视觉和文本内容；在AR/VR领域，SAM可以根据用户的目光选择对象，然后将其“提升”到3D中；对于内容创作者，SAM 可以提取图像区域以进行拼贴或视频编辑；SAM还可通过定位动物或物体在视频中进行研究和跟踪。多模态提升空间巨大，技术进步速度超预期，将落地千行百业。当前多模态的输入输出主要是文本、图像和音频，应用场景包括智能办公和，如智能 PPT和其他office套件，此外多模态在AI绘画、AI音乐创作以及看图写稿等AIGC方向也有广泛应用。预计1~5年内，随着多模态的发展带来AI泛化能力提升，通用视觉、通用机械臂、通用通用物流搬运机器人、行业服务机器人、真正的智能家居有望进入生活。预计5～10年内，结合复杂多模态方案的大模型有望具备完备的与世界交互的能力，在通用机器人、虚拟现实等领域得到应用。建议关注：模型及应用：大华股份、海康威视、云从科技、千方科技、商汤科技等。工具厂商：当虹科技、万兴科技、星环科技等。算力：英伟达、海光信息、寒武纪、中科曙光、易华录、拓维信息、四川长虹、神州数码、东华软件、常山北明、景嘉微、工业富联、浪潮信息、光通信产业链等。风险提示：AI技术迭代不及预期；经济下行超预期；行业竞争加剧。 1.Meta发布SAM，零样本分割图像中一切对象 4月6号，Meta发布Segment Anything Model（SAM），该模型可以用于分割图像中的一切对象，即使是训练数据中没有见过的对象，可直接在网页体验:https://segment-anything.com/demo。图表1：SAM图像分割Demo SAM可以使用各种输入提示包括点击，框选和文字，指定要在图像中分割的内容。对于不明确的提示，比如到底要分割出人穿的衣服还是整个人，SAM会生成多个分割掩码。图表2：用交互点和框提示图表3：生成多个掩码 SAM可以灵活集成其他系统，比如将AR/VR头盔的用户视线作为提示来选择对象，也可以将分割输出用作其他AI系统的输入，用于3D建模等任务。图表4：SAM可以从其他系统获取输入提示如从AR/VR耳机中获取用户的视线以选择对象，以及来自对象检测器图表5：输出掩码可以用于其他AI系统，例如用于3D建模 SAM的模型结构设计高效灵活，先通过图像编码器为图像生成一次性编码，在用一个轻量级编码器将任何提示实时转换为编码。然后将这图像编码和提示编码两个信息源组合在一个轻量级解码器中，用于预测分割掩码。计算好图像编码后，每个提示只需要几毫秒就能在浏览器中运行。图表6：SAM的模型结构 Meta开源了SAM的模型和包含1100万张图像和11亿个掩码的训练数据集SA-1B，该数据集包含的图像数量是以前可用分割数据集的六倍，分割掩码数量是以前的400倍。 2.SAM初步验证了多模态技术路径及其泛化能力，相当于计算机视觉领域的GPT-3 英伟达人工智能科学家Jim Fan在推特表示他认为Meta的这项研究是计算机视觉领域的“GPT-3时刻”之一。在NLP领域中，GPT-3的成功之处在于大量数据上进行预训练，得到了具有强大泛化能力的基础模型，在翻译，写作或对话等不同领域应用时都只需很少或不需要微调。图表7：JimFan推特 SAM是一个可以执行交互式分割和自动分割的通用模型。以前要解决分割问题，有两类方法。第一种是交互式分割，允许分割任何类别的对象，但需要一个人通过迭代完善掩码来指导方法。第二种是自动分割，允许对提前定义的特定对象类别（例如，猫或椅子）进行分割，但需要大量手动标注的对象来训练（例如，数千甚至数万个分割猫的例子）。如同GPT-3在NLP领域的成功，SAM通过大规模分割数据集的训练，已经学会了物体是什么的一般概念，这种理解可以对不熟悉的物体和图像进行零样本泛化，而无需额外的训练，这让SAM可以成为计算机视觉领域各类任务的基础模型。并且GPT-3可以使用“提示”技术对新数据集和任务执行零样本和少样本学习，SAM也从中获得了灵感，将提示技术用于图像分割。展望将来，SAM可以成为更大的AI系统的一个组成部分，用于对世界做更通用的多模态理解，例如，理解网页的视觉和文本内容；在AR/VR领域，SAM可以根据用户的目光选择对象，然后将其“提升”到3D中；对于内容创作者，SAM可以提取图像区域以进行拼贴或视频编辑；SAM还可通过定位动物或物体在视频中进行研究和跟踪。 3.多模态应用展望当前多模态的输入输出主要是文本、图像和音频，可以应用于智能办公和，AIGC还有智能音箱等场景。微软已率先发布了365Copilot产品助力智能办公，另外多模态在AI绘画、AI音乐创作以及看图写稿等AIGC方向也有广泛应用。目前office类工具和AIGC，年内预计海康大华商汤云从都有算法级的DEMO积累，全球产业链开始出现信号。多模态还能提升智能音箱的交互体验，有望助力智能音箱渗透率提升。图表8：微软365Copilot一键生成PPT 图表9：DALL-E2模型根据文字生成图像预计1~5年内，通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。谷歌的Palm-E模型现在已经能控制机器人完成一些需要泛化能力的任务。未来随着模型通用性的提高，部署成本降低，多模态会赋能众多工业领域，比如煤矿行业智能化提高生产安全和效率。图表10：PaLM-E操控机器人将绿色块推到海龟，机器人之前没见过海龟图表11：华为官网矿山大模型解决方案预计5-10年内，结合复杂多模态方案的大模型有望具备完备的与世界交互的能力，在通用机器人、虚拟现实等领域得到应用。从GPT到通用机器人的应用规模化落地，需要解决机械控制、模型泛化能力、模型规模扩大后算力扩展、续航能力等基础问题。 1）机械控制。人形机器人在运行的时候不需要特殊的环境或对环境进行改造，具备更开放的生态、更快的场景适应性。但由于不同的关节构造、不同的轴、不同的手指数或手之间承担的力量、转动幅度和灵活性存在差异，人形机器人的关节机械控制成为难点。 2）模型泛化。机器人下游场景差别很大，若想要实现应用大规模快速落地，需要增强模型泛化能力，提升模型的通用性，以降低推广成本。SAM的出现让视觉泛化能力迈进了一大步，有望应用于人形机器人。 3）模型规模扩大后算力扩展模型扩大后算力将成为瓶颈，特斯拉打造Dojo平台，实现最佳的AI训练性能，启用更大、更复杂的神经网络模型，实现高能效且经济高效的计算。图表12：Dojo与A100在经典图像分类模型ResNet-50下性能对比 4）能源问题机器人能源问题包含两方面，一方面需要关注机器人电池组，解决电池续航能力问题；另一方面针对能源管理系统，需要解决电池冷却等问题。多模态技术还能助力游戏内容与元宇宙构造，随着AR/VR技术的发展，未来将能构建逼真的虚拟现实。比如传统的3D模型构建需要耗费大量时间和人力成本，但用AI可以快速进行3D模型，还能快速制作游戏中的NPC，对游戏创作和元宇宙构造起到降本增效的作用。图表13：Epic使用虚幻5引擎和程序化生成技术高效制作游戏中的庞大城市投资建议建议关注：模型及应用：大华股份、海康威视、云从科技、千方科技、商汤科技等。工具厂商：当虹科技、万兴科技、星环科技等。算力：英伟达、海光信息、寒武纪、中科曙光、易华录、拓维信息、四川长虹、神州数码、东华软件、常山北明、景嘉微、工业富联、浪潮信息、光通信产业链等。风险提示 AI技术迭代不及预期风险：若AI技术迭代不及预期，NLP技术理解人类意图水平未能取得突破，则对产业链相关公司会造成一定不利影响。经济下行超预期风险：若宏观经济景气度下行，固定资产投资额放缓，影响企业再投资意愿，从而影响消费者消费意愿和产业链生产意愿，对整个行业将会造成不利影响，NLP技术应用落地将会受限。行业竞争加剧风险：若相关企业加快技术迭代和应用布局，整体行业竞争程度加剧，将会对目前行业内企业的增长产生威胁。

点击免费查看完整报告

你可能感兴趣

SAM的技术特点与贡献

应用前景与多模态技术发展

投资建议与风险提示

多模态GPT的号角：SAM

Meta推出SAM：革命性图像分割技术

Meta发布Segment Anything Model (SAM)

你可能感兴趣

人工智能行业点评：SAM模型带来图像分割的GPT~3时刻，机器视觉和多模态AI迎突破

多模态GPT，比我们想象的更近

GPT-4相关能力的总结：- 支持多模态输入：GPT

下半年的超级场景一：多模态GPT

计算机行业：Open AI发布GPT~4，亮点不局限于多模态