您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:多模态GPT的号角:SAM - 发现报告
当前位置:首页/行业研究/报告详情/

多模态GPT的号角:SAM

信息技术2023-04-08刘高畅国盛证券上***
多模态GPT的号角:SAM

Meta发布SAM,零样本分割图像中一切对象。4月6号,Meta发布Segment Anything Model(SAM),该模型可以用于分割图像中的一切对象,即使是 训练数据中没有见过的对象,可直接在网页体 验:https://segment-anything.com/demo。SAM可以使用各种输入提示包括 点击,框选和文字,指定要在图像中分割的内容,并且可以灵活集成其他系 统,比如将AR/VR头盔的用户视线作为提示来选择对象,也可以将分割输 出用作其他AI系统的输入,用于3D建模等任务。模型设计高效灵活,每 个提示只需要几毫秒就能在浏览器中运行,并且Meta开源了SAM的模型和 包含1100万张图像和11亿个掩码的训练数据集。 SAM初步验证了多模态技术路径及其泛化能力,相当于计算机视觉领域的 GPT-3。英伟达人工智能科学家Jim Fan认为Meta的这项研究是计算机视 觉领域的“GPT-3时刻”之一。SAM是通用的分割方法,已经学会了物体是 什么的一般概念,可以对不熟悉的物体和图像进行零样本泛化,而无需额外 的训练。GPT-3系列模型可以使用“提示”技术对新数据集和任务执行零样 本和少样本学习,SAM从中获得灵感将提示技术用于图像分割。展望将来, SAM可以成为更大的AI系统的一个组成部分,用于对世界做更通用的多模 态理解,例如,理解网页的视觉和文本内容;在AR/VR领域,SAM可以根 据用户的目光选择对象,然后将其“提升”到3D中;对于内容创作者,SAM 可以提取图像区域以进行拼贴或视频编辑;SAM还可通过定位动物或物体在 视频中进行研究和跟踪。 多模态提升空间巨大,技术进步速度超预期,将落地千行百业。当前多模态 的输入输出主要是文本、图像和音频,应用场景包括智能办公和,如智能 PPT和其他office套件,此外多模态在AI绘画、AI音乐创作以及看图写稿 等AIGC方向也有广泛应用。预计1~5年内,随着多模态的发展带来AI泛 化能力提升,通用视觉、通用机械臂、通用通用物流搬运机器人、行业服务 机器人、真正的智能家居有望进入生活。预计5~10年内,结合复杂多模态 方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实 等领域得到应用。 建议关注: 模型及应用:大华股份、海康威视、云从科技、千方科技、商汤科技等。 工具厂商:当虹科技、万兴科技、星环科技等。 算力:英伟达、海光信息、寒武纪、中科曙光、易华录、拓维信息、四川长 虹、神州数码、东华软件、常山北明、景嘉微、工业富联、浪潮信息、光通 信产业链等。 风险提示:AI技术迭代不及预期;经济下行超预期;行业竞争加剧。 1.Meta发布SAM,零样本分割图像中一切对象 4月6号,Meta发布Segment Anything Model(SAM),该模型可以用于分割图像中的一切对象 , 即使是训练数据中没有见过的对象, 可直接在网页体验:https://segment-anything.com/demo。 图表1:SAM图像分割Demo SAM可以使用各种输入提示包括点击,框选和文字,指定要在图像中分割的内容。对于不明确的提示,比如到底要分割出人穿的衣服还是整个人,SAM会生成多个分割掩码。 图表2:用交互点和框提示 图表3:生成多个掩码 SAM可以灵活集成其他系统,比如将AR/VR头盔的用户视线作为提示来选择对象,也可以将分割输出用作其他AI系统的输入,用于3D建模等任务。 图表4:SAM可以从其他系统获取输入提示如从AR/VR耳机中获取用户的视线以选择对象,以及来自对象检测器 图表5:输出掩码可以用于其他AI系统,例如用于3D建模 SAM的模型结构设计高效灵活,先通过图像编码器为图像生成一次性编码,在用一个轻量级编码器将任何提示实时转换为编码。然后将这图像编码和提示编码两个信息源组合在一个轻量级解码器中,用于预测分割掩码。计算好图像编码后,每个提示只需要几毫秒就能在浏览器中运行。 图表6:SAM的模型结构 Meta开源了SAM的模型和包含1100万张图像和11亿个掩码的训练数据集SA-1B,该数据集包含的图像数量是以前可用分割数据集的六倍,分割掩码数量是以前的400倍。 2.SAM初步验证了多模态技术路径及其泛化能力,相当于计算机视觉领域的GPT-3 英伟达人工智能科学家Jim Fan在推特表示他认为Meta的这项研究是计算机视觉领域的“GPT-3时刻”之一。在NLP领域中,GPT-3的成功之处在于大量数据上进行预训练,得到了具有强大泛化能力的基础模型,在翻译,写作或对话等不同领域应用时都只需很少或不需要微调。 图表7:JimFan推特 SAM是一个可以执行交互式分割和自动分割的通用模型。以前要解决分割问题,有两类方法。第一种是交互式分割,允许分割任何类别的对象,但需要一个人通过迭代完善掩码来指导方法。第二种是自动分割,允许对提前定义的特定对象类别(例如,猫或椅子)进行分割,但需要大量手动标注的对象来训练(例如,数千甚至数万个分割猫的例子)。 如同GPT-3在NLP领域的成功,SAM通过大规模分割数据集的训练,已经学会了物体是什么的一般概念,这种理解可以对不熟悉的物体和图像进行零样本泛化,而无需额外的训练,这让SAM可以成为计算机视觉领域各类任务的基础模型。并且GPT-3可以使用“提示”技术对新数据集和任务执行零样本和少样本学习,SAM也从中获得了灵感,将提示技术用于图像分割。 展望将来,SAM可以成为更大的AI系统的一个组成部分,用于对世界做更通用的多模态理解,例如,理解网页的视觉和文本内容;在AR/VR领域,SAM可以根据用户的目光选择对象,然后将其“提升”到3D中;对于内容创作者,SAM可以提取图像区域以进行拼贴或视频编辑;SAM还可通过定位动物或物体在视频中进行研究和跟踪。 3.多模态应用展望 当前多模态的输入输出主要是文本、图像和音频,可以应用于智能办公和,AIGC还有智能音箱等场景。微软已率先发布了365Copilot产品助力智能办公,另外多模态在AI绘画、AI音乐创作以及看图写稿等AIGC方向也有广泛应用。目前office类工具和AIGC,年内预计海康大华商汤云从都有算法级的DEMO积累,全球产业链开始出现信号。多模态还能提升智能音箱的交互体验,有望助力智能音箱渗透率提升。 图表8:微软365Copilot一键生成PPT 图表9:DALL-E2模型根据文字生成图像 预计1~5年内,通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。谷歌的Palm-E模型现在已经能控制机器人完成一些需要泛化能力的任务。未来随着模型通用性的提高,部署成本降低,多模态会赋能众多工业领域,比如煤矿行业智能化提高生产安全和效率。 图表10:PaLM-E操控机器人将绿色块推到海龟,机器人之前没见过海龟 图表11:华为官网矿山大模型解决方案 预计5-10年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。从GPT到通用机器人的应用规模化落地,需要解决机械控制、模型泛化能力、模型规模扩大后算力扩展、续航能力等基础问题。 1)机械控制。人形机器人在运行的时候不需要特殊的环境或对环境进行改造,具备更开放的生态、更快的场景适应性。但由于不同的关节构造、不同的轴、不同的手指数或手之间承担的力量、转动幅度和灵活性存在差异,人形机器人的关节机械控制成为难点。 2)模型泛化。机器人下游场景差别很大,若想要实现应用大规模快速落地,需要增强模型泛化能力,提升模型的通用性,以降低推广成本。SAM的出现让视觉泛化能力迈进了一大步,有望应用于人形机器人。 3)模型规模扩大后算力扩展 模型扩大后算力将成为瓶颈,特斯拉打造Dojo平台,实现最佳的AI训练性能,启用更大、更复杂的神经网络模型,实现高能效且经济高效的计算。 图表12:Dojo与A100在经典图像分类模型ResNet-50下性能对比 4)能源问题 机器人能源问题包含两方面,一方面需要关注机器人电池组,解决电池续航能力问题; 另一方面针对能源管理系统,需要解决电池冷却等问题。 多模态技术还能助力游戏内容与元宇宙构造,随着AR/VR技术的发展,未来将能构建逼真的虚拟现实。比如传统的3D模型构建需要耗费大量时间和人力成本,但用AI可以快速进行3D模型,还能快速制作游戏中的NPC,对游戏创作和元宇宙构造起到降本增效的作用。 图表13:Epic使用虚幻5引擎和程序化生成技术高效制作游戏中的庞大城市 投资建议 建议关注: 模型及应用:大华股份、海康威视、云从科技、千方科技、商汤科技等。 工具厂商:当虹科技、万兴科技、星环科技等。 算力:英伟达、海光信息、寒武纪、中科曙光、易华录、拓维信息、四川长虹、神州数码、东华软件、常山北明、景嘉微、工业富联、浪潮信息、光通信产业链等。 风险提示 AI技术迭代不及预期风险:若AI技术迭代不及预期,NLP技术理解人类意图水平未能取得突破,则对产业链相关公司会造成一定不利影响。 经济下行超预期风险:若宏观经济景气度下行,固定资产投资额放缓,影响企业再投资意愿,从而影响消费者消费意愿和产业链生产意愿,对整个行业将会造成不利影响,NLP技术应用落地将会受限。 行业竞争加剧风险:若相关企业加快技术迭代和应用布局,整体行业竞争程度加剧,将会对目前行业内企业的增长产生威胁。