行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

大华发布星汉大模型，多模态AI进入场景化落地应用阶段

信息技术 2023-10-29 刘高畅国盛证券 Aaron

各类投资研究报告查询就上发现报告平台（www.fxbaogao.com），平台数据库庞大，研报分类完整细致，全量覆盖宏观走势、产业行业、上市企业、季度年报等板块。平台用户体量稳居行业前列，结合前沿信息技术与极简浏览布局，大幅降低信息获取门槛，辅助用户深度研判市场行情。

大华股份发布星汉大模型，融合图像、点云、文本、语音等多模态数据，大幅提升了视觉解析能力。本次发布的大华星汉大模型，通过构建一套大模型研发体系、大模型开发组件及场景化应用三层开发框架，持续开发各种场景化模型，并不断匹配行业的新需求，弹性扩展行业视觉大模型通用能力，携手生态伙伴加速大模型产业化应用落地。未来通过对诸多行业视觉大模型落地实践，将沉淀一套通用算法框架，加快大模型跨行业复制，赋能更多行业创新发展。多模态大模型带来准确性和泛化性跃升。以星汉大模型为例，此次发布的大华星汉大模型具备五大优势，全面构建好用、用得起的行业大模型，支撑大模型全场景落地。

大华星汉大模型正式发布，通用框架算法框架赋能行业智能化升级。1）大华基于丰富的行业和细分场景业务经验，面向以视觉为核心的智慧物联领域，10月 24日，在2023大华股份“星河璀璨·万象新生”年度峰会上，大华股份重磅发布大华星汉大模型。它是多模态融合的行业视觉大模型，通过融合图像、点云、文本、语音等多模态数据，大幅提升了视觉解析能力。2）本次发布的大华星汉大模型，通过构建一套大模型研发体系、大模型开发组件及场景化应用三层开发框架，持续开发各种场景化模型，并不断匹配行业的新需求，弹性扩展行业视觉大模型通用能力，携手生态伙伴加速大模型产业化应用落地。未来通过对诸多行业视觉大模型落地实践，将沉淀一套通用算法框架，加快大模型跨行业复制，赋能更多行业创新发展。多模态大模型带来准确性和泛化性跃升。以星汉大模型为例，此次发布的大华星汉大模型具备五大优势，全面构建好用、用得起的行业大模型，支撑大模型全场景落地：1）准确性和泛化性跃升。2）图文提示定义新功能。3）突破视觉认知能力。4）全场景自主解析。5）大小模型与算力融合协同。场景为王，多模态AI已进入可实际落地应用阶段。传统视觉AI算法具备很大的场景局限性，行业中存在大量未解决需求，而大模型能够带来AI算法开发效率的提升及准确率的显著提升，在实际场景中已有可用案例。例如，大华股份在10/24发布会上发布了面向城市治理与企业数智化升级的诸多典型行业的视觉大模型：1）城市场景：此次重点发布了城市治理大模型，大到整个城市全貌，小到每条道路、每个路口及经过的车辆情况，通过大模型均可对城市全貌真实孪生重现，助力城市精细化管理；同时，可助力实现城市道路状态、城市环境仿真评价、智能交通管理、生态治理等，实现城市治理高效决策分析。2）电力场景：公司打造的电力行业大模型，从整个变电站全貌，到变压器等仪器仪表设备运行状态，通过大模型对电力场景全貌真实孪生重现，辅助可视化管理，并可助力施工操作推演实训、运维数据自主分析决策等，实现对企业的高效运营管理。其他多模态AI行业更新：腾讯混元正式开放文生图功能，小鹏汽车入局人形机器人，多模态能力持续落地。1）10月26日，腾讯混元大模型正式对外开放了 “文生图”功能，用户可以在微信小程序“腾讯混元助手”里体验自然语言直接生成图片的能力。2）在1024小鹏汽车科技日上，小鹏汽车首发自研人形机器人，该机器人可以拎包提物、端茶倒水，还能进厂打螺丝，可以在生产生活多场景中使用。投资建议：建议关注多模态AI领军大华股份、海康威视、千方科技、中科创达、萤石网络等。风险提示：AI技术迭代不及预期风险；经济下行超预期风险；行业竞争加剧风险。 1.大华发布星汉大模型，融合多模态数据提升AI解析能力大华星汉大模型正式发布，多模态融合提升AI视觉解析能力。随着新一轮科技革命和产业变革深入发展，行业数字化转型进入深水区，人工智能产业规模快速增长。大模型的出现，将跃升人工智能供给能力，更好应对行业数智化升级面临的挑战，带来新发展机遇。大华基于丰富的行业和细分场景业务经验，面向以视觉为核心的智慧物联领域，10月24日，在2023大华股份“星河璀璨·万象新生”年度峰会上，大华股份重磅发布大华星汉大模型。它是多模态融合的行业视觉大模型，通过融合图像、点云、文本、语音等多模态数据，大幅提升了视觉解析能力。星汉大模型是面向行业的视觉大模型，通用框架算法框架赋能行业智能化升级。本次发布的大华星汉大模型，通过构建一套大模型研发体系、大模型开发组件及场景化应用三层开发框架，持续开发各种场景化模型，并不断匹配行业的新需求，弹性扩展行业视觉大模型通用能力，携手生态伙伴加速大模型产业化应用落地。未来通过对诸多行业视觉大模型落地实践，将沉淀一套通用算法框架，加快大模型跨行业复制，赋能更多行业创新发展。图表1：大华股份发布星汉大模型星汉大模型分为三层开发构架： 1）最底层是巨灵AI开发平台：可以提供数据处理（全生命周期管理、自动化标注）、模型训练（弹性分布式并行计算）、模型部署（一键移植优化、MaaS）一级仿真验证（异构设备集群、自动仿真验证）等底层AI相关能力。 2）中间层是大模型开发组件：基于巨灵平台上沉淀下来的能力以及行业know-how，打磨沉淀出相对通用的算法框架以及大模型开发套件，训练出不同行业中分别的行业大模型，比如城市治理行业视觉大模型、交通行业视觉大模型、电力行业视觉大模型等。 3）最上层是场景化应用：基于中间层得到的行业大模型，针对智慧消防、智慧工地、智慧电梯、仪表巡检、智慧课堂、智慧厨房等具体场景，完成场景化的应用落地。 2.五大优势支撑星汉大模型全场景落地此次发布的大华星汉大模型具备五大优势，全面构建好用、用得起的行业大模型，支撑大模型全场景落地： 01）准确性和泛化性跃升：在极小目标、多形态目标、模糊图像等各类复杂场景下，大幅提升准确率和场景适配性，效果更稳定可靠，加速大模型多行业、更广泛落地，快速提升市场容量。 02）图文提示定义新功能：算法开发原先需要数据标注、数据训练、算法部署和产品交付，现在大模型将四步变一步，无需定制，开发周期大幅缩短，高效满足长尾市场碎片化需求。比如设备漏油检测，过去不同机器、不同漏油类型都需定制开发，现在通过图像和文本提示，轻易实现漏油检测功能。 03）突破视觉认知能力：具备理解复杂行为的能力，实现从感知解析、简单认知升级到复杂认知理解业务，更容易实现流程合规、暴力抛物等更多复杂行为类的识别业务，拓宽智能市场新空间。 04）全场景自主解析：自动理解功能和场景，无需规则配置，解决小模型方法核验规则繁琐费力等问题，简化智能应用部署，降低落地部署成本，让用户使用更便捷。 05）大小模型与算力协同：通过算法融合，大小模型协同部署，构建好用和用得起的大模型系统，实现大模型系统算力成本可控，加速商业落地。图表2：星汉大模型具备五大优势 3.场景为王，行业视觉大模型带来开发效率与模型效果提升传统视觉AI算法具备很大的场景局限性，行业中存在大量未解决需求。钱塘江潮水涨涨落落，行人在江滩行走、游玩容易出现危险，因此需要水位监测和预警装置系统，来解决这一问题。但是此前算法是无法识别水面的，所以现在关于水位的监测依然是靠标尺线，也没有办法预测和预警。目前，行业里类似急切却尚未解决的需求还非常多。大模型能够带来AI算法开发效率的提升及准确率的显著提升。早在2019年，为了降低自己的成本以及提升技术精度，大华股份在内部引入了当时还比较新的Transformer技术，最初是想解决外面数据标注公司质量低从而影响后面算法精度的问题。而新技术不负众望，大华的半自动化标注方案，让大华在服务不同客户时，把原本繁琐、低人效的标注环节优化，节省很多了很多时间和人力成本，到了2020年初，大华就已经有了检测+分割+分类的自动化标注模型。1）而到了今年，大模型已经可以带来准确率的提高。正如上文提到，在视觉识别领域，有众多还无法解决的问题，比如企业内部流程当中的AI介入，准确率在70%，而大模型的出现可以将准确率拉高到95%，这样一来，就会有大量的企业愿意使用这一技术，从而产生新的增量市场。2）其次，研发效率可以大幅提高，大模型的特性就是不需要重头训练，因此更多碎片化市场可以被覆盖，这样一来会涌现更多新的需求。图表3：大华股份先进技术研究院院长殷俊分享关于星汉大模型的演讲发布会上，大华发布了面向城市治理与企业数智化升级的诸多典型行业的视觉大模型，帮助更多行业构建视频数据产业价值，助力场景化AI能力升级： 1.城市场景：公司围绕城市高效治理、运行自治、安全体系升级、生态协同治理，拓展各个领域，此次重点发布了城市治理大模型，大到整个城市全貌，小到每条道路、每个路口及经过的车辆情况，通过大模型均可对城市全貌真实孪生重现，助力城市精细化管理；同时，可助力实现城市道路状态、城市环境仿真评价、智能交通管理、生态治理等，实现城市治理高效决策分析。图表4：城市治理大模型 2.电力场景：公司持续使能业务创新，助力企业构建大安全体系、数智生产力、提升经营决断力，打造的电力行业大模型，从整个变电站全貌，到变压器等仪器仪表设备运行状态，通过大模型对电力场景全貌真实孪生重现，辅助可视化管理，并可助力施工操作推演实训、运维数据自主分析决策等，实现对企业的高效运营管理。图表5：电力行业大模型我们认为，大华星汉大模型的发布昭示着多模态AI开始进入实际行业落地阶段，伴随着多模态技术的持续成熟，我们将逐渐看到多模态大模型技术赋能千行百业，持续提升各行各业的智能化水平与开发效率。 4.其他多模态相关行业更新腾讯混元大模型正式对外开放文生图功能。10月26日，腾讯正式对外开放了混元大模型的文生图功能，用户可以在微信小程序“腾讯混元助手”里使用自然语言指令直接生成图片。此外，腾讯混元大模型整体也迎来了全新迭代升级，包括代码生成、中文理解等。文生图是多模态领域的核心能力之一，也是体现大模型对语言的理解能力的试金石。目前，文生图的技术难点在于对prompt的语义理解、最终图片的生成效果、以及生成内容的合理性。根据澎湃新闻报道，针对以上技术痛点，腾讯做了以下改善： 1）腾讯混元大模型在语义理解方面，采用了中英文双语细粒度的模型，可以实现双语理解，并通过优化算法提升了模型对细节的感知能力与生成效果，有效避免不同语言下的理解谬误。 2）在内容合理性方面，AI生成人体结构容易变形，尤其是手部结构。混元文生图模型通过增强算法模型，将人体骨架和人手结构等信息引入到强化生成过程中，让生成的图像更合理，减少错误率。 3）在画面质感方面，混元文生图基于多模型融合的方法，提升生成质感。根据澎湃新闻报道，经过以上算法优化后，混元文生图的人像模型（包含发丝、皱纹等细节）的效果提升30%，场景模型（包含草木、波纹等细节的）效果提升了25%，出现显著改善。腾讯透露，腾讯混元文生图能力已经被用于素材创作、商品图像合成、游戏宣传出图等多项业务中。而在广告业务的多轮测评中，腾讯混元文生图的案例优秀率和广告主采纳率分别达到86%和26%。小鹏汽车首发自研人形机器人，入局机器人领域。在1024小鹏汽车科技日上，小鹏汽车首发自研人形机器人，该机器人可以拎包提物、端茶倒水，还能进厂打螺丝，可以在生产生活多场景中使用。图表6：小鹏汽车首发自研人形机器人 5.投资建议多模态GPT打开广阔下游需求，宏观经济逆周期政策提振下游支付能力，二者合力有望带来多模态AI领军企业业绩回暖。我们认为，从下半年开始的1~5年内，随着多模态GPT的发展带来AI泛化能力提升，通用视觉、通用机械臂、行业服务机器人、真正的智能家居等等会进入生活。在5-10年内，结合复杂多模态方案的大模型有望具备完备的与世界交互的能力，带来千行百业的广阔需求。与此同时，国家宏观经济政策力度加大，有望提振政府端预算，带来下游更好的支付能力。二者叠加，有望带来多模态AI领军企业业绩回暖。建议关注：多模态AI领军大华股份、海康威视、千方科技、中科创达、萤石网络等。大华股份：公司为全球领先的以视频为核心的智慧物联解决方案提供商和运营服务商，以AIoT和物联数智平台两大技术战略为支撑，将人工智能、大数据、物联网技术有效融合于公司产品与解决方案，服务城市数字化创新和企业数智化转型。子公司华睿科技业务包括机器视觉和移动机器人。经过多年技术积累，已形成光学成像、高精度图像处理、可视化算法编程、嵌入式异构计算、超低功耗微型化硬件设计、集群调度、自主导航、智能电池管理系统等核心技术，并以机器视觉算法平台和机器人RCS调度平台为核心，推出面阵相机、线阵相机、智能相机、读码器、3D相机等工业视觉设备和潜伏、移载/重载、叉取等各类型的移动机器人等系列化产品与解决方案，成功应用于锂电光伏、物流、3C制造、纺织

点击免费查看完整报告

大华发布星汉大模型，多模态AI进入场景化落地应用阶段

你可能感兴趣

传媒互联网行业周报：多模态大模型相继发布，AI教育场景加速落地

【盘中宝】重大进展，谷歌发布新一代AI模型，多模态能力大幅增强，有望开启新一轮多模态大模型浪潮，这家企业多模态预训练大模型已完成数据收集和清理，目前进入实验性训练阶段-20240219

【掘金行业龙头】多模态+AIGC，多模态大模型进入实验性训练阶段，AIGC产品覆盖图像、音乐、文本、编程等多模态内容生成能力，这家公司已发布多个AI助手

【九点特供】这家公司很快将与英伟达发布激动人心的联合声明;马斯克表示xAl将于本周开源AI聊天机器人Grok，实现AGI的重要突破节点来临，这家公司的多模态预训练大模型已进入实验性训练阶段

【盘中宝】该AI大模型应用成果发布会将举行，机构称这一细分领域是AI落地重要场景，行业奇点时刻来临未来市场空间或超1500亿，这家企业计划打造基

[盘中宝]马斯克旗下大模型产品再迎新进展，Grok V1·5或将两周后发布，机构称2024年或是AI应用真正元年，这家企业产品助力多个行业Al场景落地-20240222

【电报解读】OpenAI推动美K12课堂AI化，AI教育应用加速迈入新一轮增长期，机构看好教育是AI应用落地的核心场景之一，这家公司基于通义千问大模型打造了校园生活AI产品

发布拓天大模型，垂直领域AI大模型进入落地阶段

人工智能行业双周报：Google发布Gemini大模型，多模态应用或加速落地

马斯克大模型产品迅速迭代升级，Grok1·5有望在下个月发布，AI大模型应用或迎新一轮热潮，这家公司相关产品已具备多模态交互等基座功能