技术端:技术升级缓解精度和成本痛点,加速AI在安防应用场景落地 传统AI模型存在模型精度不足、大数据利用能力不足等限制,导致AI在安防行业应用场景受限。随着AI时代开启,有望从技术端突破瓶颈,提高模型精度并降低人工标注成本,拓宽下游应用领域,加速场景落地。 (1)图像机器学习+大小模型协同进化,模型精度显著提升。通过自训练和注意力机制,将图片与结构化数据的关系由人工标记变为机器自主学习,显著提高模型精度并提高下游泛化能力。在算力不足的边侧,大模型通过知识蒸馏等方式达到训练小模型的目的,实现大小模型在边侧的协同进化;(2)大模型有效降低标注成本,利用预训练大模型+下游任务微调的方式,助力下游场景日渐丰富;(3)多模态助力模型精度提升,音频技术助力智能安防,在安防领域广泛运用于安防机器人、智能视频监控。 下游需求:AI技术深度赋能各行各业,为B端带来广阔市场空间 1)工业:智能化转型为安防带来广阔空间。据我们测算,每年在质检有将近2100亿的人力成本,汽车、消费电子等行业潜在可替代空间均达到千亿级别。 2)智慧城市:校园/医疗/城市等多场景深度赋能安防。智慧城市辐射多个领域,驱动市场规模超百亿级。视频监控摄像头作为数据核心,为视觉应用厂商带来广阔机遇。 3)煤炭:政策指引+IT赋能,智慧矿山驱动智慧物联需求。安永预计智慧矿山整体市场规模超万亿元。 4)农业:降本增效+技术进步驱动,潜在可替代成本预计突破万亿,养殖和种植双场景赋能智慧农业。 市场格局:AI时代开启,安防巨头估值逻辑从传统安防切换至AI 我们认为,在AI时代下,安防行业将呈现强者恒强的发展趋势,海康大华的估值逻辑将从传统安防拓展至AI。与雪亮工程对比,AI将为安防行业带来更大空间,龙头受益程度亦会更高。(1)雪亮工程:受政府订单驱动,行业周期性强、空间受限于G端、行业格局尚未清晰。雪亮工程后海康大华逐渐占据行业主导地位;(2)AI时代:随着AI赋能各行各业,行业将显著受益于AI toB端,行业天花板被打开。我们认为,伴随着AI迅速发展,行业马太效应将进一步凸显,海康大华凭借渠道、行业理解、数据等优势有望持续领航。 两大安防巨头核心竞争:(1)渠道:国内外覆盖广泛营销网络,规模优势打造成本壁垒;(2)行业Know-How:行业理解提高数据精度,是AI技术变现的核心能力;(3)数据:数据是AI模型构建的基础。安防龙头积累丰富数据资源和价值挖掘能力,有望构建AI时代下的数据护城河。 中移动成为大华特有阿尔法,有望实现协同发展。中移动作为运营商龙头,广泛布局视觉AI,与大华在AI toB端高度协同。中移在算力、数据和渠道拥有显著优势,将助力大华渠道下沉,深度赋能大华在AI领域发展。 投资建议:建议重点关注:1)安防厂商:大华股份、海康威视、千方科技等安防产业链标的;2)上游关键硬件厂商:富瀚微、寒武纪、舜宇光学等。 风险提示:下游需求不稳定风险、企业技术研发不及预期、供应链安全风险、知识产权风险、主观测算风险。 1.大模型突破技术瓶颈,有望加速AI场景落地 我们认为,AI在安防行业商业化落地进程中主要存在两大痛点:第一,传统机器学习模型精度不足;其次,模型限制成为大数据发展的挑战之一,模型下游应用场景有限。 随着AI时代到来,我们看到如下趋势:通过突破技术端瓶颈,或将显著提高模型精度并降低人工标注成本,拓宽下游应用领域,加速场景落地。具体而言,(1)图像机器学习+大小模型协同进化,模型精度将显著提升;(2)大模型有效降低标注成本,助力下游场景日渐丰富;(3)多模态驱动模型精度提升,音频技术助力智能安防。 1.1.图像机器学习+大小模型协同进化,模型精度显著提升 我们认为,图像机器学习+注意力机制将提高精度并降低人工标注成本,通过大小模型协同进化,拓宽下游应用场景。 具体而言:(1)在图像机器学习+注意力机制赋能下,AI大模型对于复杂图片和场景的识别能力有望显著提升,降低人工标注成本,提高大模型自我训练的精度;(2)大模型通过知识蒸馏、量化等方式,在边侧将其沉淀的知识与推理能力向小模型输出,达到训练小模型的目的。(3)小模型向大模型反馈算法和执行成效,帮助大模型迅速收敛。通过上述流程,将实现大小模型在云边端协同进化。 图1:大模型+小模型协同发展流程 1.1.1.图像机器学习+注意力机制实现降本提精,图像交互方式或被颠覆 Clip模型是OpenAI于2021年初发布的开源神经网络,在无需人工标注标签的图像识别上性能卓越,Clip开源的特点或将加快国内厂商技术追赶图像机器学习进度,为后续机器视觉大规模商业化打下技术基础。 Clip带来图像机器学习关键节点,机器视觉大规模商业化时间线可参考ChatGPT。Clip技术突破带来迅速的下游应用渗透,在Clip发布两年后,2022年11月、2023年3月ChatGPT与GPT-4分别发布,图像机器学习使得AIGC大规模商业化成为了可能。参考ChatGPT,我们认为图像机器学习的技术触角有望延展到机器视觉2B应用端:(1)短期:可实现降低成本、提高精度;(2)中长期:人和图像数据的交互方式或被颠覆。 短期:图像机器学习摆脱人工标注,将降低标注成本、提升识别精度。1)实现图像的机器学习将减少AI图像视频判断对人工标注的依赖,降低数据成本。2)在识别成本下降的同时,机器学习将会提升图像标签的识别精度,提升数据挖掘的维度,无法被人眼识别的数据将得到被挖掘的可能,拓宽下游机器视觉2B应用场景。 长期:在摄像头海量数据支持下,AI+安防的交互方式或被颠覆。摄像头作为目前视频、图像信息的重要接收窗口,在日常生活中具备较高覆盖度,可以从边端侧为AI分析提供海量数据源,是AI自我学习视频图像数据的重要抓手。通过机器学习,如今已经实现通过文字描述查找视频关键帧等应用,随着机器学习技术的进一步迭代,深入挖掘更多图像视频的视觉信息,我们认为在AI+安防领域有望创造更多人与深度视觉数据互动的方式,如自动生成监控视频的文字描述、选择关键片段替代原视频等。 实现不同模态信息提取,注意力机制助力图像识别的机器学习。在图像的机器学习中,使用了注意力机制,用于提取图像和文本的特征表示,从而实现图像和文本之间的相似度计算。模仿人类视觉选择性关注信息、忽略其他可见信息的特点,注意力机制是一种抑制无用特征、提高对有用特征的关注度的算法。在2017年由Google提出可以实现注意力机制的神经网络架构Transformer后,注意力机制经过发展,已经可以完成音频、图像、视频、自然语言等不同模态的数据特征抓取任务,实现了多模态的信息提取,成为Clip模型为代表的图像机器学习的重要基础之一。 图2:人眼注意力机制示意 图3:提取图片的文字结构数据示意 图4:注意力机制作用示意 表1:对于给定图片(男性肖像),注意力机制的实现过程 1.1.2.大模型+小模型协同进化,在边侧实现模型精度提升 传统机器学习模型精度瓶颈明显,复杂场景识别受限。由于数据量不足、特征提取能力不足、模型复杂度不足、计算资源有限等问题,传统机器学习模型往往精度有限、难以处理大规模的数据。当在复杂环境中存在干扰因素时,识别效果往往大打折扣。 例如在工业质检领域,质量检测是制造业生产线中的重要环节,对精度要求尤为严格,通常为微米级别,在半导体等产业甚至达到纳米级别。以车间加工中心为例,各工序精度要求基本在1-10μm间。传统机器学习模型存在精度不足、成本过高等痛点,应用效果不佳。 表2:车间加工中心各工序对表面粗糙度的精度要求 大小模型协同进化实现精度提升,使复杂场景精确识别成为可能。(1)在图像机器学习+ 注意力机制赋能下,大模型对于复杂图片和场景的识别能力将会显著提升,助力模型精度提高;(2)在算力不足的边侧,通过知识蒸馏等方式实现大模型对小模型的训练;(3)小模型向大模型反馈算法和执行成效,帮助大模型迅速收敛。通过上述流程,将实现大小模型在云边端协同进化、实现精度提升。例如在自动驾驶背景下,车辆需要实时感知周围场景。传统模型下人工标注的信息获取维度单一,处于运动状态下的车辆可能出现相互遮挡等情况,导致无法精准识别并感知周围场景。而在机器视觉充分被数据训练后,海量的多维度数据将会被标注,并给予适量权重,从而使复杂场景的精确识别成为可能。 图5:对具有不同遮挡程度的复杂环境的识别 在大模型监督、训练小模型的过程中,知识蒸馏是主流方法之一。知识蒸馏核心思想是生成一个复杂的大模型,对于同一数据源,小模型以大模型的输出结果或生成的数据标签为目标进行训练。 知识蒸馏可实现大模型能力迁移,在边侧等算力不足区域提高模型精度。(1)提升模型精度:利用已有的更高精度的大模型对小模型进行知识蒸馏,从而得到更高精度的小模型。 (2)降低模型时延,压缩网络参数:通过更高精度的大模型对参数量小、时延低的小模型进行知识蒸馏,提高该小模型的精度,从而降低时延。(3)标签之间的域迁移:将两个训练集不同的模型同时蒸馏,可以得到集合两个模型效果的模型,实现了两个不同域的数据集的集成和迁移。 以小米的小爱同学智能音响为例,首先在云上基于大规模数据训练BERT大模型,然后再将这个模型作为teacher模型,进行模型蒸馏,来训练一个更小的Albert tiny模型。最终得到的小模型可以学习到Bert大模型的知识,在效果没有明显下降的情况下,响应时间降低到20ms,大幅优化了客户体验。 图6:知识蒸馏示意图 图7:三类知识蒸馏的差异 1.2.机器学习有效降低标注成本,助力下游场景日渐丰富 我们认为,以减少人工标注成本为基础,“预训练大模型+下游任务微调”模式是后续视觉模型大规模应用的重要前提。 传统网络模型训练依赖海量经标注的数据,数据成本较高。由于获取、标注数据成本高,且针对不同行业需要重新收集、标注数据和训练模型,产生大量重复成本。 根据极市平台公众号、得物技术公众号、高工智能汽车公众号总结的AI项目通常开发过程,结合2016年海康威视在海关便携式审讯设备采购项目中落地流程的实例,项目落地的主要流程包括:确定需求、数据搜集、根据需求和数据设计定制化模型、安装并部署项目、根据实际应用数据优化模型、验收项目、后期运维。项目中依赖人工搜集并标注数据,产生大量成本。此外,需要结合实际部署情况所得数据对模型进行优化,将产生重复成本。 图8:传统安防项目落地流程 机器学习将有效降低人工标注的数据成本。有50000人参与了图片数据库ImageNet中1400万张图片的标注,与此相比,Clip使用的是互联网上公开的文本-图像对,在标注方面,也利用自监督学习、对比方法、自训练方法以及生成建模等方法减少对人工标注的依赖。在实现图像标签的自动机器学习后,数据人工标注的成本将被大幅降低。 大模型实现自动机器学习之后,可通过知识蒸馏将识别迁移传到至边缘模型,提高模型通用性。我们认为ChatGPT的成功,标志着AI应用从以专用小模型训练为主的“手工作坊时代”转变为以通用大模型预训练为主的“工业化时代”。1)通过实现机器自动标注数据、高精度带来的数据样本量扩大等因素,人工数据标注的成本大幅降低。2)机器自动标注促使大规模预训练成为可能,提高了基础模型的泛化能力,降低了定制化需求的成本。简而言之,AI大模型学习了各行各业各类数据,成为具备良好的知识迁移能力的“通才”,只需根据下游应用具体场景对参数进行微调,便可实现靶向高速处理。 图9:BEiT-3可迁移到各种视觉、视觉-语言的下游任务 表3:大模型具有的特征与优势 1.3.多模态驱动模型精度提升,音频技术助力智能安防 1.3.1.多模态模型落地,多维数据提升模型精度 多模态时代开启,目前文本-图像模型为主。多模态机器学习旨在建立能够处理和关联来自多种模态的信息的模型,常见的模态包括视觉、文字、声音等。2023年以来,各科技巨头纷纷推出多模态大模型,包括谷歌PaLM-E、微软KOSMOS-1、GPT-4和百度文心一