Leadleo.com 客服电话:400-072-5588 CV大模型头豹词条报告系列 常乔雨·头豹分析师 2023-09-07未经平台授权,禁止转载 版权有问题?点此投诉 信息传输、软件和信息技术服务业/软件和信息技术服务业/信息技术咨询服务 信息科技/软件服务 行业: 行业定义 CV大模型是指在计算机视觉领域使用大量的参数和数… AI访谈 行业分类 按应用领域,CV大模型在安防视频、交通视频、智能… AI访谈 行业特征 CV大模型行业具有技术路线多元、算力需求较大、以… AI访谈 发展历程 CV大模型行业 目前已达到3个阶段 AI访谈 产业链分析 上游分析中游分析下游分析 AI访谈 行业规模 CV大模型行业规模暂无评级报告 AI访谈SIZE数据 政策梳理 CV大模型行业相关政策6篇 AI访谈 竞争格局 中国的CV大模型行业正展现初步活跃态势。众多厂商… AI访谈数据图表 摘要在计算机视觉领域,CV大模型正逐渐采纳基于Transformer的深度学习预训练策略,旨在构建一个通用的视觉特征表示以满足多种下游应用需求。这些模型的核心价值在于其出色的泛化能力、对标注数据的低依赖性以及其能够加速研发周期。技术进展方面,行业已从传统的特征工程方法,例如SIFT,迈向深度学习的CNN,并进一步探索视觉转换器,这些都显著提升了图像处理的效率和精度。然而,技术的持续进步也带来了对算力的增长需求,预测到2030年,推理部署所需的算力将占据75%。观察行业生态,从上游的算力基础设施,到中游的技术研发供应商,再到下游的实际应用场景,整个链条涵盖了众多参与者,如阿里云、腾讯云这样的综合性供应商,以及宇视科技、大华股份等行业领军企业。值得指出的是,ToB市场已经稳坐主导地位,贡献了90%的总营收。展眼未来,CV大模型的竞争焦点预计将从模型研发转向算力、数据资源和整体生态的整合,这将迫使企业在提升硬件性能与模型优化之间寻找平衡。 CV大模型行业定义[1] CV大模型是指在计算机视觉领域使用大量的参数和数据进行预训练的深度学习模型,通常基于Transformer结构,目的是学习到一种通用的视觉特征表示,可以用于不同的下游任务,如图像分类、目标检测、语义分割等。CV大模型的优点是可以提高模型的泛化能力和性能,缩短模型开发和部署的周期,降低标注 数据的成本。CV大模型的代表作有华为盘古CV1、ViT2、V-MoE3等。 [1]1:https://zhuanlan.z… 2:https://zhuanlan.z… 3:清华大学、知乎专栏 CV大模型行业分类[2] 按应用领域,CV大模型在安防视频、交通视频、智能驾驶、MR/XR领域、智能终端以及工业视觉的应用广泛。 按主要应用领域划分 安防视频 CV大模型赋能:提高识别准确率和泛化能力,降低标注成本和训练时间,支持多任务和多硬件的灵活部署。应用:人脸识别、人体分析、行为识别、异常检测等 交通视频 CV大模型赋能:提高检测精度和速度,适应不同场景和光照条件,支持大规模数据的处理和分析。应用:车辆检测、车牌识别、车流统计、违章抓拍等 CV大模型分类 智能驾驶 MR/XR领域 CV大模型赋能:提高视觉感知的稳定性和鲁棒性,适应不同天气和路况,支持多模态信息的融合和决策。应用:道路分割、障碍物检测、行人跟踪、车道保持等 CV大模型赋能:提高图像和文本的跨模态理解和生成能力,支持多种创意内容的呈现和交互,提升用户体验和沉浸感。应用:虚拟现实、增强现实、混合现实等 智能终端 CV大模型赋能:提高视觉任务的执行效率和质量,降低模型的参数量和计算量,适配不同终端设备的性能要求。应用:智能手机、智能音箱、智能手表等 工业视觉 CV大模型赋能:提高工业场景的视觉分析和控制能 力,降低人工干预和误差,支持复杂环境下的自适应调节。应用:缺陷检测、质量控制、机器人导航等 [2]1:华泰证券 CV大模型行业特征[3] CV大模型行业具有技术路线多元、算力需求较大、以及行业应用场景广阔的三大特征。随着技术的进步和算力成本的降低,预计CV大模型在视觉识别市场的占有率将迅速增长,为行业带来巨大的商业机会。[4] 1技术路线多元 CV大模型的技术路线较为多元,文本提示、图像提示以及多元提示技术路线均拥有各自的优势以及应用场景 视觉大模型的技术实现路径可以粗浅的分为三大类别,分别是文本提示(TextuallyPrompt)、视觉提示 (VisuallyPrompt)以及多元提示(HeterogenousPrompt)。文本提示通过文本-图像正负对,并根据语言提示产出结果;视觉提示通过点与框的额外标注进行提示,并根据语言提示产出结果;多元提示通过融合文本、图像、音频以及视频等多模态信息,并通过多元信息源进行提示从而产出结果。文本提示算力耗费低,模型复杂度低,输入直观。多元提示模型泛化能力强,但模型复杂度高,算力消耗大。 2算力需求较大 CV大模型在训练与推理部署端的算力消耗较大,是同参数规模NLP大模型的20倍 CV大模型的上游算力基础设施主要包括AI计算芯片、算力/网络设备以及数据中心,这三者构建了CV大模型开放的底层基础支持。其中,AI计算芯片可分为训练芯片与推理芯片;网络设备核心包含服务器、交换机以及光模块;数据中心则有计算、存储以及网络三个部分组成。CV训练对算力需求巨大,2020年GPT3训练983M大小的图片数据集用了10天,CV基础大模型的训练量显著高于NLP大模型。 3行业应用场景广阔 CV大模型的行业潜在应用较广,覆盖安防、交通、零售、金融、医疗、遥感多十数个传统大类行业 在计算机视觉(CV)领域,尽管大模型仍处于探索阶段,其在低数据集分割的通用性已为安防、物流、零售及交通等行业带来视觉泛化的提升和开发成本的降低。目前,市场上已有数款专为特定行业设计的CV大模型,展现出显著的经济效益。以零售为例,CV大模型能在数据匮乏的环境下有效识别多种商品,显著减少场景特定的训练投入。展望未来,安防、遥感、交通和医疗被认为是最具增长潜力的领域。虽然当前CV大模型在图像识别精度和算力需求上仍有挑战,但这些行业的应用仍然初级。随着技术的进步和算力成本的降低,预计CV大模型在视觉识别市场的占有率将迅速增长,为行业带来巨大的商业机会。 [3]1:https://juejin.cn/p… 2:https://www.huaw… 3:华为云、百度智能云、G… [4]1:https://www.huaw… 2:https://juejin.cn/p… 3:https://wenxin.bai… 4:华为云、百度智能云、G… CV大模型发展历程[5] 计算机视觉的传统特征工程依赖手工设计的算子,如SIFT算法,进行图像特征提取。这种方法要求高,且难以跨项目共享。随着技术进步,深度学习,特别是卷积神经网络(CNN),为特征提取带来革命。CNN通过卷积层模拟并优化传统特征提取,如VGG和ResNet进一步增强了其能力。变分自编码器(VAE)和生成对抗网络 (GAN)为图像生成与处理开辟了新路径。近期,视觉转换器通过多头注意力机制将图像处理视为文本处理,将图像拆分为局部图,再进行向量嵌入和相关性计算。这种方法没有使用图像的先验知识,使其具有更强的泛化能力和性能提升。 [6 计算机视觉传统特征工程阶段1960~1989 -1963年:LawrenceRoberts提出了一种从二维图像推断三维信息的方法,开启了从图像理解三维场景的研究。 -1977年:DavidMarr提出了一种计算视觉理论,提供了一个基于视觉信息分层处理的计算机视觉框架。 -1987年:IrvingBiederman提出了基于组件的识别理论,认为物体可以通过将其分解为基本的几何形状(称为geons)来识别。 在计算机视觉的传统特征工程中,工程师依赖于各种手工设计的算子来提取图像的视觉特征,如边缘提取、直线和圆形特征等。其中,SIFT算法被视为这一领域的技术巅峰。处理一幅图像通常需要经过一系列的特征提取步骤,最终得到一个特征集合。然后,工程师还需进一步采用主成分分析、回归分析或支持向量机(SVM)等方法进行手动的特征筛选和处理。这种方法不仅对开发人员的专业知识和时间要求很高,而且由于每个项目的视觉特征都有其独特性,这使得开发的成果难以在不同项目之间共享。随着技术的进步,这种传统的方法在计算机视觉领域已逐渐被淘汰,转向更为自动化和通用的方法。 计算机视觉深度学习阶段1990~2016 -1989年:YannLeCun将一种反向传播式的学习算法应用于Fukushima的卷积神经网络结构,并 开发了LeNet-5,这是第一个现代卷积神经网络,它在手写数字识别上取得了高性能。 -2012年:AlexKrizhevsky,IlyaSutskever和GeoffreyHinton使用深度卷积神经网络AlexNet 赢得了ImageNet大规模视觉识别挑战赛(ILSVRC),它显著地超越了之前的方法,并证明了深度学习对计算机视觉的有效性。 -2013年:DiederikP.Kingma和MaxWelling发布VAE变分自编码器,VAE可以从数据中学习潜 在的分布,并生成新的合成图像。 -2014年:IanGoodfellow等人提出了生成对抗网络(GAN)的概念,并展示了一些生成人脸和数字图像的结果。GAN是一种基于博弈论的无监督学习方法,可以从数据中学习潜在的分布,并生成新的合成图像。 计算机视觉的深度学习领域,卷积神经网络(CNN)起到了革命性的作用。核心在于其卷积运算,通过多个滤波器组成的卷积层,CNN能够模拟并超越传统特征工程的特征提取能力。随着层叠的卷积层,CNN有效地集成了众多特征提取算子,从而实现了从像素到高维特征的映射。特别是近年的VGG和ResNet技术,进一步强化了CNN的能力。除CNN之外,变分自编码器(VAE)为图像生成和编码提供了新的视角,而生成对抗网络(GAN)则开启了图像生成和风格迁移的新篇章。这三者共同推动了计算机视觉的进步,其中CNN因其对图像的空间相关性的利用,特别适合小数据集和边缘计算,而VAE和GAN则为图像生成和处理提供了更为丰富和多样的方法。 计算机视觉ViT大模型发展阶段2017~2023 -2017年:AshishVaswani等人提出了Transformer模型,它是一种编码器-解码器架构,它使用自注意力层而不是循环或卷积层来编码和解码序列。 -2020年:AlexeyDosovitskiy等人提出了视觉Transformer(ViT),它是一种Transformer模 型,它直接将图像块作为输入标记,并显示了当在大规模数据集上进行预训练时,它可以在图像分类上取得与CNN相媲美的性能。 视觉转换器阶段的信号处理核心算法是多头注意力(Multi-HeadAttention)机制。视觉转换器将图像视为文本,将一幅图像拆分为若干局部图(Patch),如果把每个局部图看成一个词元 (Token),那么一幅图像就相当于由一串“词元”组成的一句话。按照自然语言的处理逻辑,需要使用向量嵌入(Embedding)技术将每个词元都变成一个高维向量,那么一幅图像就相当于一个矩阵,其行数等于词元数量,列数等于高维向量的元素个数。后续的处理就很简单了,只需要使用自然语言处理中的多头注意力机制对这些高维向量进行相关性计算,然后再映射到另一个更高维度的空间即可。视觉转换器的神经网络并没有使用任何图像的先验性知识,而是将整幅图的所有像素点都进行相关性计算,因此图像卷积计算可以看成是多头注意力机制的一个特例,而多头注意力机制可以看成是全画幅的(更复杂的)图像卷积运算。正是因为视觉转换器并没有使用任何图像领域的先验知识,并且多头注意力机制具有极为简单的矩阵运算,这使得视觉转换器能等效于任何特征处理算子,这无疑带来性能上的大幅提升和更为强大的泛化能力。 [5]1:htt