继零样本分割一切的SAM,Meta又迅速开源DINOv2模型,不需微调即 可用于多种下游任务,DEMO网址:https://dinov2.metademolab.com/。DINOv2 能产生高性能的视觉特征,用于不同下游视觉任务如分类、分割、图像检索 和深度估计,不需要微调。DINOv2蒸馏成小模型后效果依然优秀,在多个 参数规模下测试,能在大部分测试基准上超过之前最好的模型OpenCLIP。 DINOv2的创新点和优秀性能来源于使用图像自监督学习的方式训练。 DINOv2的模型结构基于(Vision Transformer,VIT)。此前许多视觉模型使 用图像和文本配对数据做预训练,Meta认为该方法依赖于文本描述图像的 语义内容,会忽略文本描述中未明确提及的重要信息,因此Meta构建了一 个大型数据集,先设置一组种子图像,然后寻找和这些种子图像的编码距离 接近的图像进行聚类。虽然图像没有文字标注,但模型可以通过图像之间的 关联来学到图像特征,克服了文本对图像描述不够全面的局限性。 DINOv2性能优秀,开源后可多方面赋能AI产业。1)DINOv2不需要微调 即可胜任完成图生文前期任务,提升整个方案的泛化能力,为后续识别的泛 化能力提高打下基础。2)DINOv2能蒸馏成小模型还有较好效果,便于在 各种边缘场景及本地化落地。3)DINOv2可以为大语言模型提供丰富的图 像特征,加速多模态人工智能的发展。 多模态提升空间巨大,技术进步速度超预期,将落地千行百业。当前多模态 的输入输出主要是文本、图像和音频,应用场景包括智能办公,如智能PPT 和其他office套件,此外多模态在AI绘画、AI音乐创作以及看图写稿等AIGC 方向也有广泛应用。1~5年内,随着多模态的发展带来AI泛化能力提升, 通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智 能家居会进入生活。未来5~10年内,结合复杂多模态方案的大模型有望具 备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。 建议关注:算力产业链公司及大华股份、海康威视、云从科技、千方科技、 商汤科技、萤石网络等。 风险提示:AI技术迭代不及预期风险;经济下行超预期风险;行业竞争加 剧风险。 1、DinoV2模型 4月18日,Meta开源了DINOv2模型,能产生高性能的视觉特征,用于不同下游视觉任务如分类、分割、图像检索和深度估计,并且不需要微调。 图表1:DINOv2用于语义分割,将图中每个像素划分类别 图表2:DINOv2用于深度估计,给出图中物体到镜头的距离信息 图表3:DINOv2用于图像检索,查找与给定图像相关的图 DINOv2蒸馏成小模型后效果依然优秀,能在大部分测试基准超过之前最好的模型OpenCLIP。运行大型的模型需要强大的硬件,这可能会限制模型在一些场景应用,可以采用模型蒸馏的方式,将大型模型的知识压缩为较小的模型,但会有一定的效果降低。 DINOv2能以极低的效果降低压缩成更小的模型,从而降低推理时的硬件要求。Meta开源了多个不同参数规模的预训练模型,在相同的规模下比较,DINOv2在多种测试基准的得分都能优于之前最好的OpenCLIP模型。 2、DINOv2的创新和优秀性能在于用自监督学习方式训练 DINOv2的模型结构基于VIT,其创新点和优秀性能来源于使用图像自监督学习的方式训练,不需要图像和文本对应的训练数据,克服了文本对图像描述不够全面的局限性。 2020年10月,谷歌推出Vision Transformer(ViT),将语言模型的transformer架构用于视觉模型,代替了传统的CNN。Transformer将句子中的每个词(token)并行输入编码器,ViT直接将图像拆分为多个块,将每个块的位置和包含的信息编码后,当做是一个词输入到编码器中。 图表4:ViT模型架构 近年来许多视觉模型使用图像和文本配对数据做预训练,如OpenAI发布的CLIP模型。 Meta认为该方法依赖于文本描述图像的语义内容,因此会忽略文本描述中通常未明确提及的重要信息。例如,在一个巨大的紫色房间里有一张椅子的图片的标题可能是“一个橡木椅子”,而错过了背景信息,如椅子在紫色房间的空间位置。DINOv2是基于自监督学习的,训练数据是Meta构建的大型、精选且多样化的数据集,通过从约25个第三方数据集中先设置一组种子图像,然后寻找和这些种子图像的编码距离接近的图像进行聚类匹配,在12亿张源图像中生成了总计1.42亿张图像的训练数据集。虽然图像没有文字标注,但模型可以通过图像之间的关联来学到图像特征,克服了文本对图像描述不够全面的局限性。 图表5:DINOv2的训练数据处理流程 3、DINOv2可多方面赋能AI产业 1)DINOv2不需要微调即可胜任完成图生文前期任务,提升整个方案的泛化能力,为后续识别的泛化能力提高打下基础。现阶段AI在视觉领域的应用,一个重要痛点在于场景碎片化导致模型定制成本高,DINOv2能提取优质的图像特征,不需要微调就用于不同下游任务,有望极大降低各行业视觉智能方案的落地成本。Meta目前已与世界资源研究所合作,用DINOv2在各大洲大小的区域逐棵树绘制森林地图,其模型是用来自北美森林的数据进行训练的,但评估证实它能很好地泛化,在世界各地提供准确的地图。 图表6:Meta将DINOv2用于绘制森林地图 2)能蒸馏成小模型,便于在各种边缘场景及本地化落地。Meta经过多项测试表明DINOv2蒸馏成较小的模型后,在不同规模上都具有相对优秀效果,有利于在一些边缘侧硬件或是算力有限的行业本地场景上落地。 3)为大语言模型提供图像特征,加速多模态人工智能的发展。Meta已表示计划将DINOv2集成到更大、更复杂的人工智能系统中,作为视觉主干提供丰富的图像特征与大型语言模型进行交互。DINOv2能比用图像文本对做训练的模型得到更丰富的图像特征,这将让整个系统能更好地理解图像,对多模态人工智能的发展起到加速作用。 4、多模态应用节奏展望 当前多模态的输入输出主要是文本、图像和音频,可以应用于智能办公和,AIGC还有智能音箱等场景。微软已率先发布了365Copilot产品助力智能办公,另外多模态在AI绘画、AI音乐创作以及看图写稿等AIGC方向也有广泛应用。目前office类工具和AIGC,年内预计海康大华商汤云从都有算法级的DEMO积累,全球产业链开始出现信号。多模态还能提升智能音箱的交互体验,有望助力智能音箱渗透率提升。 图表7:微软365Copilot一键生成PPT 图表8:DALL-E2模型根据文字生成图像 1~5年内,通用视觉、通用机械臂、通用物流搬运机器人、行业服务机器人、真正的智能家居会进入生活。谷歌的Palm-E模型现在已经能控制机器人完成一些需要泛化能力的任务。未来随着模型通用性的提高,部署成本降低,多模态会赋能众多工业领域,比如煤矿行业智能化提高生产安全和效率。 图表9:PaLM-E操控机器人将绿色块推到海龟,机器人之前没见过海龟 图表10:华为官网矿山大模型解决方案 在5-10年内,结合复杂多模态方案的大模型有望具备完备的与世界交互的能力,在通用机器人、虚拟现实等领域得到应用。 从GPT到通用机器人的应用规模化落地,需要解决机械控制、模型泛化能力、模型规模扩大后算力扩展、续航能力等基础问题。 1)机械控制。人形机器人在运行的时候不需要特殊的环境或对环境进行改造,具备更开放的生态、更快的场景适应性。但由于不同的关节构造、不同的轴、不同的手指数或手之间承担的力量、转动幅度和灵活性存在差异,人形机器人的关节机械控制成为难点。 2)模型泛化。机器人下游场景差别很大,若想要实现应用大规模快速落地,需要增强模型泛化能力,提升模型的通用性,以降低推广成本。SAM的出现让视觉泛化能力迈进了一大步,有望应用于人形机器人。 3)模型规模扩大后算力扩展。模型扩大后算力将成为瓶颈,特斯拉打造Dojo平台,实现最佳的AI训练性能,启用更大、更复杂的神经网络模型,实现高能效且经济高效的计算。 图表11:Dojo与A100在经典图像分类模型ResNet-50下性能对比 4)能源问题。机器人能源问题包含两方面,一方面需要关注机器人电池组,解决电池续航能力问题;另一方面针对能源管理系统,需要解决电池冷却等问题。 多模态技术还能助力游戏内容与元宇宙构造,随着AR/VR技术的发展,未来将能构建逼真的虚拟现实。比如传统的3D制作需要耗费大量时间和人力成本,以2018年发售的游戏《荒野大镖客2》为例,为了打造约60平方公里的虚拟场景、先后有六百余名美术历经8年完成。程序化内容生成技术(PCG,Procedural Content Generation)是一种在效能和可控度上介于纯手丁和AIGC之间的产出方式。2022年的交互内容《黑客帝国:觉醒》中就采用了这项技术。在最新引擎技术的加持下生成了包括700万个实例化资产的虚拟城市,每个资产由数百万个多边形组成,包括7000栋建筑、38000辆可驾驶的车和超过260公里的道路。 图表12:Epic使用虚幻5引擎和程序化生成技术高效制作游戏中的庞大城市 5、投资建议 建议关注:算力产业链公司及大华股份、海康威视、云从科技、千方科技、商汤科技、萤石网络等。 6、风险提示 AI技术迭代不及预期风险:若AI技术迭代不及预期,NLP技术理解人类意图水平未能取得突破,则对产业链相关公司会造成一定不利影响。 经济下行超预期风险:若宏观经济景气度下行,固定资产投资额放缓,影响企业再投资意愿,从而影响消费者消费意愿和产业链生产意愿,对整个行业将会造成不利影响,NLP技术应用落地将会受限。 行业竞争加剧风险:若相关企业加快技术迭代和应用布局,整体行业竞争程度加剧,将会对目前行业内企业的增长产生威胁。