您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华为]:华为云AI视频技术白皮书 - 发现报告
当前位置:首页/其他报告/报告详情/

华为云AI视频技术白皮书

2024-07-27-华为灰***
华为云AI视频技术白皮书

华为云AI视频 技术白皮书 引言/01 AI与视频的碰撞/05 2.1发展趋势05 2.2典型场景07 AI视频介绍/09 3.1参考架构09 3.2行业视频管理服务(IVM)11 3.3视频智能分析服务(VIAS)13 3.4盘古CV大模型15 3.5盘古视频解译大模型21 华为云AI视频 技术白皮书 AI视频应用案例/23 4.1华为门店23 4.2物流25 4.3铁路26 4.4矿山28 4.5电力30 展望未来,从感知到生成/31 01|引言 引 言 用摄像机拍摄,记录并播放视频可以回溯到19世纪,大家公认的第一部电影是法国影片《工厂的大门》,1895年由路易斯•卢米埃尔摄影。表现当时法国里昂卢米埃尔工厂放工时的情景,片长仅一分多钟。从这以后,摄影技术持续发展,从模拟技术到数字技术,从电影摄像机到家用摄像机,直到电脑,手机等便携终端内置摄像头,摄像已经成为当今社会人们记录信息并传播交流的最重要工具和手段,也是大众百姓所需要和掌握的一项基本生活技能。 摄像技术应用也从电影,广播电视发展到生活中的方方面面,包括城市治理、安全防护、工业质检等等。每个城市,每个企业都有大量的摄像机,不断在记录发生的一切。海量的视频数据,在方便大众的生活的同时,也带来了很多管理上的困扰。数据如何有效存储,如何能够感知并记录关键事件,如何能够将屏幕面前的工作人员解放出来或者减轻他们工作的强度,已经成为视频使用者最关心的问题。与此同时,AI技术虽然起步较晚,但随着其快速的发展,已经在诸多方面与视频技术产生了深度的融合。 引言|01 1950年,艾伦•图灵(AlanTuring)在论文《计算机器与智能(ComputingMachineryandIntelligence)》中提出了著名的“图灵测试”,给出了判定机器是否有“智能”的试验方法。1956年夏,麦卡锡、明斯基等科学家在美国达特茅斯学院开会研讨“如何用机器模拟人的智能”,首次提出“人工智能(ArtificialIntelligence,简称AI)”这一概念,标志着人工智能学科的诞生。 人工智能从诞生之初,就希望让机器理解这个世界,将人类从繁琐,重复性的事务中脱离出来。从符号主义、专家系统、神经网络、深度学习、强化学习到预训练大模型,一个又一个技术的突破,让人类看到了通用人工智能的希望。自然而然,用人工智能识别视频数据,甚至生成视频数据成为了技术路线的必然选择。华为公司在视频技术和人工智能技术上都有深厚的积累和丰富的实践,华为云AI视频产品正是将AI和视频技术相结合的优秀典范。此篇《华为云AI视频白皮书》,是我们团队研究和实践经验的总结,希望能够更好地促进产业的发展,让摄像机“看得懂、会说话”。 02|AI与视频的碰撞 AI与视频的碰撞 没有孤立的技术,融合才能发展。视频技术和AI技术虽然起步时间不同,但在发展中却交相辉映,在最需要彼此的时候相遇。如下图所示,人工智能和视频编解码,都经历了漫长的摸索期,并先后于21世纪取得突破式发展。深度学习将人工智能带入千行百业的生产流程,H.264编码技术将视频业务带入移动互联网,成为每个消费者日常的必需品。两条平行发展的技术踩着同样的步点,在视频数据爆发增长,预训练大模型横空出世的时代相遇。AI和视频的结合是趋势和必然,给所有人,所有行业无限的想象空间和发展潜力。两个超万亿产值的行业相乘,将带来无法估量的产业价值。 人工智能起步阶段 专家系统阶段 机器学习& 深度学习阶段 大模型&通用人工智能 起源 达特茅斯会议的人工智能研讨,标志着AI诞生 第一次高潮-黄金发展期符号主义和联接主义接连出现,机器学习理论和计算机 视觉学科诞生 第二次高潮-快速发展期“专家系统”出现,为企业一年节省数千万美金。专家系统所依 赖的知识库系统和知识工程成为 主要研究方向,政府开始重视人工智能项目 1980s 第三次兴起 2000年以后,算力+算法+数据 的突破带来深度学习的兴起 2007年,李飞飞构建开源ImageNet,世界最大的图像识别数据集(2万多类别) 2006 Transformer出现Google提出Transformer替换CNN/RNN 2017 ChatGPT OpenAI发布 ChatGPT 2023 1956 1960s 1974–1980 第一次寒冬 1993 第二次寒冬 AI与视频的碰撞|02 算法只能解决狭窄领域的问题, 算力不足以支撑发展 专家系统通用性差成本高, 维护复杂 使用时间压缩的帧间预测编码 DCT图像压缩算法 H.261 H.263 H.263+ H.263++ H.262/MPEG-2 H.264/MPEG-4AVC H.265/HEVC H.266 MPEG-1 MPEG-4 图表1人工智能VS视频编解码发展历史 2.1 发展趋势 趋势1:视频流云上集中管理 大量的摄像机安装完成后,面临的问题是如何集中式管理。摄像机分散在不同的地方,管理者需要在一个平台上,跨区域、大范围集中管理,通过完善的分权分域能力保护隐私安全。同时,各摄像机采集的视频需要集中存储,因为本地化分散存储会造成信息碎片化,无法形成多个视频流之间的联动,且本地存储易丢失、管理成本高。统一的云上存储,则可以有效解决以上问题。咨询报告指出,2023年到2027年,视频流上云和云存储的年复合增长率超过27%。在云化的趋势下,视频流云上管理、存储越来越成为业界趋势,企业的主流选择。 趋势2:用预训练的大模型生成场景模型 AI技术中,处理视频的相关技术一般被称为计算机视觉(ComputingVision)。计算机视觉是一种利用计算机和数学算法来模拟和自动化人类视觉的过程。它涉及到从数字图像或视频中提取信息,如对象识别、场景理解、运动跟踪、三维重建等。计算机视觉技术在许多领域都有应用,如自动驾驶、医学影像分析、机器人视觉等。 计算机视频分析视频流或者图片时采用计算机视觉模型。计算机视觉模型是指使用深度学习技术训练的神经网络模型,用于解决计算机视觉领域的各种问题。这些模型通常由数百万或更多个参数组成,可以对图像、视频等视觉数据进行高级别的理解和分析,例如图像分类、目标检测、语义分割、人脸识别等任务。 随着大数据和AI算力的发展,模型参数越来越大,大模型应运而生。大模型指网络规模巨大的深度学习模型,具体表现为模型的参数量规模较大,其规模通常在百亿以上级别。研究发现,模型的性能(指精度)通常与模型的参数规模息息相关。模型参数规模越大,模型的学习能力越强,最终的精度也将更高,泛化性也越强。 用大模型可以有效提升场景模型的准确率和泛化性,加上预训练的海量数据,用少量样本,甚至零样本就可以生成场景模型,解决视频算法长尾的问题。 趋势3:用视频解译大模型理解视频内容 视频场景模型可以用确定的规则对视频流进行分析,识别关键事件,辅助人工进行判别并给出决策建议。但现实世界纷繁复杂,花鸟鱼虫,春夏秋冬,都在表达着自己的个性和不同,规则是无法穷尽的,判别式算法不断遇到新的需求和挑战。如何能够用泛化性强的模型理解视频,并通过自然语言的方式进行交互和报告,真正让人类从繁琐、重复性的事务中脱离出来是行业内普遍的需求。 视频解译大模型融合了视觉大模型、多模态大模型、自然语言大模型多种模型,可以实现对视频、图片、声音、文本多种模态组合分析,感知视频流发生的各种事件,实现让摄像机开口说话,实现真正的智能分析、智能交互、智能决策。 2.2 典型场景 城市日常管理 在城市治理场景中,往往建设有庞大复杂的城市事件类别体系,包含了繁多细碎的事项类别,如垃圾暴露、道路破损、围栏破损等等,一个城市一般有几百种事件类别。同时,不同城市可能还有不同的标准,可能某城市关注某一些特定事件类别,另一个城市又关注另一些特定事件类别。因此,城市政务场景面临着众多碎片化AI需求场景。城市事件的类别数量众多,同时绝大多数的城市事件又难以采集到大量数据来训练AI模型,这种问题我们称为“碎片化长尾需求场景”。 “碎片化长尾需求”一直是AI开发面临的难题,传统的AI开发模式需要对每种目标类别单独采集数据、训练模型,依赖专家经验进行算法参数调优,最后才能上线应用,每种算法的开发周期耗费几周至几个月,低下的效率难以满足当前高速的城市建设发展。华为AI视频方案,基于AI开发工作流,将数据标注、模型训练、部署上线等繁杂的流程固化为一个流水线的步骤,无需编写代码,任何人只要有准备数据,都可以通过流水线交互步骤快速地完成一个AI应用的开发和上线。每个AI算法的开发周期缩短至几天便可完成。同时基于预训练CV大模型的能力,依托于海量的大规模数据预训练,即便只有少量样本,也可以达到良好的模型泛化性和鲁棒性,解决碎片化长尾需求的问题。 由此可见,AI视频方案中的预训练CV大模型+AI开发工作流,可以更好地契合城市治理的痛点需求,解决碎片化长尾需求场景的问题,更好地将AI落地到智慧城市的建设发展中。 城市应急处置 在城市建设过程中,除了事先设定好的事件类别,还经常有突发性的临时需求。比如突发暴雨,很多地方会临时地希望检测各地是否有积水内涝的情况,以便及时预防与救援;或者某地突发交通事故,相关部门也想快速地排查周边受影响交通拥堵的路段,以及时安排人力疏通车流。这些突发性的临时需求,可能根据天气、地点、时间等不同因素千变万化,这在城市政务的场景十分常见,也对于保障城市正常运转有着非常重要的作用。 然而,这种临时性的需求对于传统AI开发来说是灾难性的。传统的AI开发需要对每种待识别的事件采集数据、训练模型,而训练出来的模型也仅能解决这一特定的任务。当一个临时性的AI需求来临时,既往训练出来的模型肯定是无法适应这个新的任务的,那又要基于这个新的需求采集对应数据、训练模型,这一流程走下来即便有AI开发工作流支撑,少说也要几天的时间开发上线。但是临时性的需求往往是紧急的,比如对于积水内涝的场景,时间就是生命,业务往往要求算法立刻就能发挥作用、识别事件。因此传统的AI开发模式面对这种紧急的临时性需求就显得捉襟见肘了。华为AI视频方案,基于业界最新的多模态大模型技术,构建了开放式的目标检测和分割模型。该算法模型基于海量数据预训练的大模型,具备通用的特征提取能力,同时内嵌预言大模型,可以理解用户输入文本的语义信息。因此,该模型可以结合用户输入的任意文本信息,实现对应物体的检测,即便这个物体之前没有出现在模型的训练集里。这种特性非常符合城市治理里突发性的临时需求场景。比如面对积水内涝的场景,就不需要再针对积水事件重新训练一个模型,而是简单地输入一个类似“请问画面中是否有积水内涝?”的语句,算法通过图片和文本的语义理解,就可以识别出来画面中是否有积水内涝的事件了。这样一来,算法就不再局限于仅能识别特定范围的一些事件,应用的广度被无限地拉大,也能更好地满足城市政务场景中灵活变化的业务需求。 更详细的应用场景请参考章节“4AI视频应用案例” 03|AI视频介绍 AI视频介绍 3.1参考架构 AI视频服务依托联接、云、AI、计算等新一代ICT技术与知识创新融合,将感知、认知、决策、行动实现深度协同。其充分利用云计算能力,系统功能可靠、稳定、完整。平台设计秉承模块化、框架化、集群化、服务化的设计理念,提供电信级系统可靠性、可扩展性和可维护性,满足不同场景对接整合、兼容应用和可持续发展的需要。 AI视频服务是面向行业视频场景的组合方案,参考华为公司架构,包括行业视频管理(IVM),智能视频分析服务(VIAS)和盘古CV大模型三个产品。可以提供一站式服务,将视频流从摄像机接入上来,进行调阅管理、存储管理,同时对视频流中的内容进行分析,识别关键事件,捕捉异常场景,并上报给上层应用系统进行处理,实现用人工智能的方式,用摄像机感知万物、掌控全局。 如下图所示,典型的组网分为接入层、网络层、平台层和应用层。AI视频服务属于平台层网元,和接入层、网络层、应用层设备互联互动,相互配合,形成