您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:视频大模型快速突破,有望打开视频分析行业天花板 - 发现报告
当前位置:首页/行业研究/报告详情/

视频大模型快速突破,有望打开视频分析行业天花板

电子设备2023-12-18蒯剑、李庭旭、韩潇锐东方证券大***
AI智能总结
查看更多
视频大模型快速突破,有望打开视频分析行业天花板

行业研究|动态跟踪 看好(维持) 视频大模型快速突破,有望打开视频分析行业天花板 电子行业 国家/地区中国 行业电子行业 报告发布日期2023年12月18日 核心观点 视频大模型近期进展多。近日,谷歌发布AI大模型Gemini,包括适用于高度复杂任务的GeminiUltra、适用于各种任务的最佳模型GeminiPro以及适用于端侧设备 的GeminiNano三个版本。GeminiUltra展现出强大的自然语言水平和多模态理解能力,在MMLU(大规模多任务语言理解)测评上首次超过人类专家,在32个多模态基准中取得30个SOTA(当前最优效果);GeminiPro和Nano版本已发布,加速AI赋能谷歌产品。李飞飞的斯坦福团队同谷歌合作,推出了用于生成逼真视频的扩散模型W.A.L.T。英伟达高级科学家JimFan评论:2022年是影像之年,2023是声波之年,而2024是视频之年! 首个原生多模态模型Gemini展示出强大视频理解能力。人工智能的发展从单一视觉或语言任务向多模态自监督学习迈进,而原生多模态大模型具有原生多模态和跨 模态理解能力,与既往基于大语言模型的多模态模型存在显著不同。Gemini模型在多模态基准测试上表现突出,展示了处理复杂图像、推理序列和生成交替文本和图像回应等新能力,这些新能力有望为视频分析等领域开启全新应用途径。 原生多模态技术有望打开视频分析行业天花板。视频分析行业目前在数据处理规模、速度和深度等方面存在亟待解决的问题,原生多模态大模型有望解决行业痛 点,打开行业天花板。原生多模态大模型可充分利用安防厂商积累的大量多模态视频数据,具有多模态输入的原生处理能力、跨模态推理和理解能力、高级分析推理能力,能提高大规模数据处理的准确性和鲁棒性,易于模型蒸馏和小型化部署,有望推动视频分析系统功能的跨步迭代升级。 领先厂商已入局,多模态模型将是视频监控行业新机遇与挑战。海康威视、大华股份等视频分析行业领先厂商纷纷投入到多模态大模型研究和行业应用落地进程中去。多模态大模型对算力部署、算法改进、硬件升级提出了新的挑战和新的机遇,有望推动视频分析系统功能迭代升级和多维感知技术商业化步伐加快。 投资建议与投资标 我们认为以Gemini为代表的原生多模态大模型有望打开视频分析行业天花板,推动智慧安防和智慧物联产品和解决方案升级,智慧安防和智慧物联行业有望从中受 益。建议关注国内智慧安防和智慧物联公司:海康威视、大华股份和萤石网络。 风险提示 原生多模态大模型进展不及预期;下游需求不及预期;行业景气度不及预期。 蒯剑021-63325888*8514 kuaijian@orientsec.com.cn 执业证书编号:S0860514050005香港证监会牌照:BPT856 李庭旭litingxu@orientsec.com.cn 执业证书编号:S0860522090002 韩潇锐hanxiaorui@orientsec.com.cn 执业证书编号:S0860523080004 杨宇轩yangyuxuan@orientsec.com.cn 薛宏伟xuehongwei@orientsec.com.cn 高阶智驾将近,终端销售回暖 2023-12-18 华为与整车厂成立合资公司,有望加速汽 2023-12-11 车智能化特斯拉推进FSD落地中国,政策清晰划分 2023-11-26 事故责任主体 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 1.近期视频大模型进展多,谷歌发布Gemini4 1.1近期视频大模型进展较多4 1.2GeminiMMLU测试得分首超人类专家4 1.3GeminiPro和Nano版本已发布,加速AI赋能谷歌产品5 2.首个原生多模态模型Gemini展示出了强大的视频理解能力6 2.1人工智能从单模态有监督迈向多模态自监督学习6 2.2Gemini是首个发布的原生多模态模型6 2.3Gemini模型具有强大的视频理解分析能力8 2.4更多原生多模态大模型有望快速涌现9 3.原生多模态模型有望解决视频分析行业痛点,打开行业天花板10 3.1视频分析行业在数据处理规模、速度和深度上存在亟待解决的痛点10 3.2原生多模态模型在视频监控和分析领域价值凸显11 3.3原生多模态模型加持后,视频分析系统有望跨步功能迭代12 4.领先厂商已入局,多模态模型将是视频监控行业新机遇与挑战12 4.1视频监控行业领先厂商已投入多模态大模型研究中12 4.2多模态模型带来新机遇与挑战13 4.3多模态技术加速多维感知的商用14 投资建议与投资标的18 风险提示18 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 图表目录 图1:GeminiMMLU测试得分首超人类专家4 图2:Gemini通过不确定性思维链方法较ChatGPT理解能力显著提升5 图3:Gemini1.0包含复杂度不同的三个版本5 图4:GeminiNano可支持Pixel*多项功能5 图5:多模态融合和自监督学习将是大模型的未来发展方向6 图6:Gemini多模态大模型框架6 图7:示例展示了Gemini模型处理文本、视觉和音频交错序列的能力及跨模式推理的能力8 图8:Gemini在多个多语言视频测试基准中均取得SOTA8 图9:Gemini模型被用于分析足球运动员击球视频并帮助提高他们的竞技水平9 图10:谷歌公布的Gemini技术文档10 图11:百度智能云提出的安防监控行业痛点10 图12:大模型将重新赋能安防行业11 图13:大华“星汉大模型”通过输入“鸟巢”图文提示,并实现自动巡检和鸟巢识别12 图14:大华“星汉大模型”架构13 图15:大华“星汉大模型”具有五大优势13 图16:原生多模态大模型的应用是视频监控行业迎来的新机遇与挑战13 图17:智能物联网多维感知14 图18:视觉、空间、时间、多频谱全感知15 图19:海康威视和华新合作研发毫米波雷达产品应用于骨料堆料情况感知16 图20:大华的多传感器布局16 图21:萤石云AI数字人用于迎宾服务17 图22:原生多模态大模型有望重塑视频分析系统工作流程17 图23:中国AI+安防软硬件市场规模18 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 1.近期视频大模型进展多,谷歌发布Gemini 1.1近期视频大模型进展较多 视频大模型Pika和W.A.L.T先后公布进展。近日,Pika1.0发布演示视频,展示了其强大的视频生成能力,可生成2D/3D动画和电影场景,生成的视频在光影、细节和镜头控制上令人惊艳,且支持视频实时编辑和修改。目前,Pika已在官方网站上开启试用。12月12日,李飞飞及其学生团队与谷歌合作,推出了AI视频生成模型W.A.L.T(WindowAttentionLatentTransformer), W.A.L.T将Transformer架构与潜在扩散模型(LatentDiffusionModels,LDM)相结合,在一个共享潜在空间中压缩图像和视频,从而降低计算要求,提高训练效率;根据演示,W.A.L.T可以通过自然语言提示或图片,生成3秒长的每秒8帧、分辨率达512x896的逼真视频。根据论文, W.A.L.T在视频生成基准UCF-101和Kinetics-600、图像生成基准ImageNet测试上实现了SOTA (当前最优效果)。 北京时间12月7日凌晨,谷歌发布多模态AI大模型Gemini。研发负责人、谷歌DeepMindCEODemisHassabis代表Gemini团队在发布会上正式推出大模型Gemini,gemini具有视觉和听觉感知、学习和推理能力。作为谷歌迄今为止最强大、最全面的模型,在大多数基准测试中,Gemini性能超越GPT-4。 1.2GeminiMMLU测试得分首超人类专家 GeminiUltra模型在多个基准测试上取得了最新的最佳成绩,几乎全方位超越GPT-4。在自然语言领域,GeminiUltra在MMLU(大规模多任务语言理解)测评上实现了90.0%的得分,首次超过人类专家;在多模态领域,GeminiUltra在32个多模态基准中取得30个SOTA(当前最优效 果),在图像理解、视频理解和音频理解基准测试上都取得了最新的最佳成绩,且无需进行特定任务的修改或调整。 图1:GeminiMMLU测试得分首超人类专家 数据来源:第一财经、谷歌官网、东方证券研究所整理 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 图2:Gemini通过不确定性思维链方法较ChatGPT理解能力显著提升 数据来源:《Gemini:AFamilyofHighlyCapableMultimodalModels》、东方证券研究所 1.3GeminiPro和Nano版本已发布,加速AI赋能谷歌产品 Gemini1.0包含复杂度不同的三个版本。包括适用于高度复杂任务的GeminiUltra、适用于各种任务的最佳模型GeminiPro以及适用于端侧设备的GeminiNano。Ultra是最强大的模型,能在广泛的高度复杂任务中提供最先进的性能,包括推理和多模态任务,可以高效地在TPU加速器上进行规模化的服务;Pro是一种在成本和延迟方面经过优化的模型,在广泛的任务中提供显著的性能,展现出强大的推理性能和广泛的多模态能力;Nano是最高效的模型,通过从更大的 Gemini模型中蒸馏训练而得到,专为在设备上运行而设计,谷歌训练了两个版本的Nano,分别具有18亿(Nano-1)和32.5亿(Nano-2)个参数,分别针对低内存和高内存设备,在部署时采用4bit量化。 GeminiPro和GeminiNano已发布。GeminiPro已集成在聊天机器人Bard上并面向谷歌用户提供服务,明年初将集成到具有Bard功能的Pixel手机上;GeminiNano也已在谷歌智能手机Pixel8Pro上本地化搭载,可支持Pixel8多项AI功能,包括Record的总结功能、Gboard的智能回复功能、AI影像功能等;而GeminiUltra将在明年早些时候发布。谷歌表示,Gemini将在接下来的几个月内登陆谷歌旗下更多产品,包括谷歌搜索、广告、Chrome浏览器和DuetAI工作组件。 图3:Gemini1.0包含复杂度不同的三个版本图4:GeminiNano可支持Pixel*多项功能 数据来源:公司官网、东方证券研究所数据来源:公司官网、东方证券研究所 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 2.首个原生多模态模型Gemini展示出了强大的视频理解能力 2.1人工智能从单模态有监督迈向多模态自监督学习 多模态更贴近现实世界的输入和输出方式,更具有智慧。单模态大模型使用图像或文本的单一输入进行训练并实现单一目标,而现实世界是一个多模态环境,如何在多模态环境利用多模态输入进行训练,从之前的“一专一能”方式过渡到“多专多能”的模型或者框架是人工智能进一步发展的关键。 图5:多模态融合和自监督学习将是大模型的未来发展方向 数据来源:中国AIGC创新峰会、东方证券研究所 现有多模态大模型主要通过在预训练好的大语言模型中引入图像理解能力实现。现有多模态模型 (LargeMultimodalModels,LMM)基本为多模态大语言模型(MultimodalLargeLanguageModels,MLLM),即