行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

多模态GPT，朝着科幻前进

信息技术2023-04-19刘高畅国盛证券北***

AI智能总结

DINOv2模型及其对AI产业的影响

概述： Meta近期开源了DINOv2模型，该模型通过图像自监督学习方式训练，能够产生高性能的视觉特征，适用于分类、分割、图像检索和深度估计等下游视觉任务，无需微调。DINOv2在多个参数规模下的测试中表现超越了之前最好的模型OpenCLIP。

核心创新与性能：

训练方式：DINOv2利用自监督学习，基于大型、精选且多样化的数据集进行训练，不依赖图像与文本的配对数据，从而克服了传统方法可能忽视的文本描述中未明确提及的重要信息。
模型结构：基于Vision Transformer (VIT)，继承了Transformer架构的优势，直接将图像拆分为块进行编码，有效处理视觉信息。
性能表现：DINOv2在多个测试基准上表现出色，蒸馏成小模型后仍保持良好效果，尤其是在资源受限的边缘场景和本地化应用中。

对AI产业的赋能：

泛化能力提升：DINOv2能够处理不同下游任务，无需额外微调，降低方案的定制成本，特别是在视觉智能方案的落地中。
小模型应用：DINOv2蒸馏后的模型在保持性能的同时，降低了硬件需求，便于在边缘场景和本地化应用中部署。
多模态发展：DINOv2能为大语言模型提供丰富的图像特征，加速多模态人工智能的发展，推动图像与语言的交互更加高效。

多模态应用展望：

智能办公、AI绘画、AI音乐创作、看图写稿等多模态应用场景正在逐步成熟，尤其在智能办公领域，已有产品如365Copilot展现出了应用潜力。
预计未来1-5年内，通用视觉、机械臂、物流机器人、服务机器人以及智能家居等将逐渐普及，为用户提供更加智能化的生活体验。
长期来看，结合复杂多模态方案的大模型有望在通用机器人、虚拟现实等领域发挥重要作用，推动技术向更广泛的应用场景拓展。

投资建议与风险提示：

关注：算力产业链公司以及大华股份、海康威视、云从科技、千方科技、商汤科技、萤石网络等。
风险：
- 技术迭代风险：AI技术发展低于预期可能影响产业链公司的增长。
- 经济下行风险：宏观经济压力可能导致固定资产投资减少，影响产业链的持续发展。
- 行业竞争加剧：激烈的市场竞争可能对现有企业构成挑战。

继零样本分割一切的SAM，Meta又迅速开源DINOv2模型，不需微调即可用于多种下游任务，DEMO网址：https://dinov2.metademolab.com/。DINOv2 能产生高性能的视觉特征，用于不同下游视觉任务如分类、分割、图像检索和深度估计，不需要微调。DINOv2蒸馏成小模型后效果依然优秀，在多个参数规模下测试，能在大部分测试基准上超过之前最好的模型OpenCLIP。 DINOv2的创新点和优秀性能来源于使用图像自监督学习的方式训练。 DINOv2的模型结构基于(Vision Transformer，VIT）。此前许多视觉模型使用图像和文本配对数据做预训练，Meta认为该方法依赖于文本描述图像的语义内容，会忽略文本描述中未明确提及的重要信息，因此Meta构建了一个大型数据集，先设置一组种子图像，然后寻找和这些种子图像的编码距离接近的图像进行聚类。虽然图像没有文字标注，但模型可以通过图像之间的关联来学到图像特征，克服了文本对图像描述不够全面的局限性。 DINOv2性能优秀，开源后可多方面赋能AI产业。1）DINOv2不需要微调即可胜任完成图生文前期任务，提升整个方案的泛化能力，为后续识别的泛化能力提高打下基础。2）DINOv2能蒸馏成小模型还有较好效果，便于在各种边缘场景及本地化落地。3）DINOv2可以为大语言模型提供丰富的图像特征，加速多模态人工智能的发展。多模态提升空间巨大，技术进步速度超预期，将落地千行百业。当前多模态的输入输出主要是文本、图像和音频，应用场景包括智能办公，如智能PPT 和其他office套件，此外多模态在AI绘画、AI音乐创作以及看图写稿等AIGC 方向也有广泛应用。1~5年内，随着多模态的发展带来AI泛化能力提升，通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。未来5～10年内，结合复杂多模态方案的大模型有望具备完备的与世界交互的能力，在通用机器人、虚拟现实等领域得到应用。建议关注：算力产业链公司及大华股份、海康威视、云从科技、千方科技、商汤科技、萤石网络等。风险提示：AI技术迭代不及预期风险；经济下行超预期风险；行业竞争加剧风险。 1、DinoV2模型 4月18日，Meta开源了DINOv2模型，能产生高性能的视觉特征，用于不同下游视觉任务如分类、分割、图像检索和深度估计，并且不需要微调。图表1：DINOv2用于语义分割，将图中每个像素划分类别图表2：DINOv2用于深度估计，给出图中物体到镜头的距离信息图表3：DINOv2用于图像检索，查找与给定图像相关的图 DINOv2蒸馏成小模型后效果依然优秀，能在大部分测试基准超过之前最好的模型OpenCLIP。运行大型的模型需要强大的硬件，这可能会限制模型在一些场景应用，可以采用模型蒸馏的方式，将大型模型的知识压缩为较小的模型，但会有一定的效果降低。 DINOv2能以极低的效果降低压缩成更小的模型，从而降低推理时的硬件要求。Meta开源了多个不同参数规模的预训练模型，在相同的规模下比较，DINOv2在多种测试基准的得分都能优于之前最好的OpenCLIP模型。 2、DINOv2的创新和优秀性能在于用自监督学习方式训练 DINOv2的模型结构基于VIT，其创新点和优秀性能来源于使用图像自监督学习的方式训练，不需要图像和文本对应的训练数据，克服了文本对图像描述不够全面的局限性。 2020年10月，谷歌推出Vision Transformer（ViT），将语言模型的transformer架构用于视觉模型，代替了传统的CNN。Transformer将句子中的每个词（token）并行输入编码器，ViT直接将图像拆分为多个块，将每个块的位置和包含的信息编码后，当做是一个词输入到编码器中。图表4：ViT模型架构近年来许多视觉模型使用图像和文本配对数据做预训练，如OpenAI发布的CLIP模型。 Meta认为该方法依赖于文本描述图像的语义内容，因此会忽略文本描述中通常未明确提及的重要信息。例如，在一个巨大的紫色房间里有一张椅子的图片的标题可能是“一个橡木椅子”，而错过了背景信息，如椅子在紫色房间的空间位置。DINOv2是基于自监督学习的，训练数据是Meta构建的大型、精选且多样化的数据集，通过从约25个第三方数据集中先设置一组种子图像，然后寻找和这些种子图像的编码距离接近的图像进行聚类匹配，在12亿张源图像中生成了总计1.42亿张图像的训练数据集。虽然图像没有文字标注，但模型可以通过图像之间的关联来学到图像特征，克服了文本对图像描述不够全面的局限性。图表5：DINOv2的训练数据处理流程 3、DINOv2可多方面赋能AI产业 1）DINOv2不需要微调即可胜任完成图生文前期任务，提升整个方案的泛化能力，为后续识别的泛化能力提高打下基础。现阶段AI在视觉领域的应用，一个重要痛点在于场景碎片化导致模型定制成本高，DINOv2能提取优质的图像特征，不需要微调就用于不同下游任务，有望极大降低各行业视觉智能方案的落地成本。Meta目前已与世界资源研究所合作，用DINOv2在各大洲大小的区域逐棵树绘制森林地图，其模型是用来自北美森林的数据进行训练的，但评估证实它能很好地泛化，在世界各地提供准确的地图。图表6：Meta将DINOv2用于绘制森林地图 2）能蒸馏成小模型，便于在各种边缘场景及本地化落地。Meta经过多项测试表明DINOv2蒸馏成较小的模型后，在不同规模上都具有相对优秀效果，有利于在一些边缘侧硬件或是算力有限的行业本地场景上落地。 3）为大语言模型提供图像特征，加速多模态人工智能的发展。Meta已表示计划将DINOv2集成到更大、更复杂的人工智能系统中，作为视觉主干提供丰富的图像特征与大型语言模型进行交互。DINOv2能比用图像文本对做训练的模型得到更丰富的图像特征，这将让整个系统能更好地理解图像，对多模态人工智能的发展起到加速作用。 4、多模态应用节奏展望当前多模态的输入输出主要是文本、图像和音频，可以应用于智能办公和，AIGC还有智能音箱等场景。微软已率先发布了365Copilot产品助力智能办公，另外多模态在AI绘画、AI音乐创作以及看图写稿等AIGC方向也有广泛应用。目前office类工具和AIGC，年内预计海康大华商汤云从都有算法级的DEMO积累，全球产业链开始出现信号。多模态还能提升智能音箱的交互体验，有望助力智能音箱渗透率提升。图表7：微软365Copilot一键生成PPT 图表8：DALL-E2模型根据文字生成图像 1~5年内，通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。谷歌的Palm-E模型现在已经能控制机器人完成一些需要泛化能力的任务。未来随着模型通用性的提高，部署成本降低，多模态会赋能众多工业领域，比如煤矿行业智能化提高生产安全和效率。图表9：PaLM-E操控机器人将绿色块推到海龟，机器人之前没见过海龟图表10：华为官网矿山大模型解决方案在5-10年内，结合复杂多模态方案的大模型有望具备完备的与世界交互的能力，在通用机器人、虚拟现实等领域得到应用。从GPT到通用机器人的应用规模化落地，需要解决机械控制、模型泛化能力、模型规模扩大后算力扩展、续航能力等基础问题。 1）机械控制。人形机器人在运行的时候不需要特殊的环境或对环境进行改造，具备更开放的生态、更快的场景适应性。但由于不同的关节构造、不同的轴、不同的手指数或手之间承担的力量、转动幅度和灵活性存在差异，人形机器人的关节机械控制成为难点。 2）模型泛化。机器人下游场景差别很大，若想要实现应用大规模快速落地，需要增强模型泛化能力，提升模型的通用性，以降低推广成本。SAM的出现让视觉泛化能力迈进了一大步，有望应用于人形机器人。 3）模型规模扩大后算力扩展。模型扩大后算力将成为瓶颈，特斯拉打造Dojo平台，实现最佳的AI训练性能，启用更大、更复杂的神经网络模型，实现高能效且经济高效的计算。图表11：Dojo与A100在经典图像分类模型ResNet-50下性能对比 4）能源问题。机器人能源问题包含两方面，一方面需要关注机器人电池组，解决电池续航能力问题；另一方面针对能源管理系统，需要解决电池冷却等问题。多模态技术还能助力游戏内容与元宇宙构造，随着AR/VR技术的发展，未来将能构建逼真的虚拟现实。比如传统的3D制作需要耗费大量时间和人力成本，以2018年发售的游戏《荒野大镖客2》为例，为了打造约60平方公里的虚拟场景、先后有六百余名美术历经8年完成。程序化内容生成技术(PCG，Procedural Content Generation)是一种在效能和可控度上介于纯手丁和AIGC之间的产出方式。2022年的交互内容《黑客帝国:觉醒》中就采用了这项技术。在最新引擎技术的加持下生成了包括700万个实例化资产的虚拟城市，每个资产由数百万个多边形组成，包括7000栋建筑、38000辆可驾驶的车和超过260公里的道路。图表12：Epic使用虚幻5引擎和程序化生成技术高效制作游戏中的庞大城市 5、投资建议建议关注：算力产业链公司及大华股份、海康威视、云从科技、千方科技、商汤科技、萤石网络等。 6、风险提示 AI技术迭代不及预期风险：若AI技术迭代不及预期，NLP技术理解人类意图水平未能取得突破，则对产业链相关公司会造成一定不利影响。经济下行超预期风险：若宏观经济景气度下行，固定资产投资额放缓，影响企业再投资意愿，从而影响消费者消费意愿和产业链生产意愿，对整个行业将会造成不利影响，NLP技术应用落地将会受限。行业竞争加剧风险：若相关企业加快技术迭代和应用布局，整体行业竞争程度加剧，将会对目前行业内企业的增长产生威胁。

点击免费查看完整报告

你可能感兴趣

多模态GPT，朝着科幻前进

DINOv2模型及其对AI产业的影响

你可能感兴趣

朝着胰岛素业务前进

三驾马车成型，朝着2025前进，维持“买入”

升级到购买：朝着正确的方向前进

中国东乡：朝着正确的方向前进

购买：朝着正确的方向前进