田奇:国际欧亚科学院院士、华为云人工智能领域首席科学家 AIFORindustry赋能千行百业,智能升级 人工智能已经加速进入千行百业,华为云过去几年人工智能的项目已经超过了1000个,其中 30%人工智能已经进入了核心的生产系统,帮助客户盈利能力平均提升18%。人工智能对企业的渗透 率预测到了2026年达20%。现在迎来了人工智能新的一波浪潮,因此人工智能对企业的渗透率我觉得还会大大的提速,大大的增快。 我们从2020年、2021年开始判断人工智能发展趋势。第一是从传统小模型到大模型,10年前 我是做计算机视觉的,Alexnet在imagenet上出色的performance,相对于Alexnet对算力的需求,2020年5月份出现的自然语言的预训练大模型GPT3,算力的需求不到10年的时间增加了40万倍。 大模型从18年的Bertmodel,大概3.4亿参数,2020年1月份微软的图灵LG大概170亿参数,不到半年的时间就出来了GPT3,达到1750亿,去年的谷歌发布PALM,单体稠密的模型参数达到5400亿。我们认为大模型将成为应对AI领域很典型的现象,应用碎片化的新范式。 首先大模型用海量通用数据加上行业数据训练,极大提升模型的泛化能力和通用性。训练大模型需要两个关键的因素:首先它对资金的门槛要求比较高,GPT3训练一次的成本千万美元,(更多纪要 加微:Syfbbd123)对算力有极高的需求,GPT3千亿的模型训练可能1000块V100需要五个月的时间。其次技术的门槛要求特别高,需要专业的人员,有经验的人员,对大模型框架的深度理解,以及 并行优化能力。大模型已经在改变AI的产业规则和格局。 另外一个AI的发展趋势就是AIforscience,AI和传统的科学计算快速融合,传统科学计算海洋气象,地球科学,机械、航空航天、土木、地质等等,众多的领域目前已经受到了人工智能深刻的影响。传统的科学计算因为是解决很多物理世界的问题,因此基本上是用海量的偏微分方程的求解。但是由于传统的科学计算并行度不高,所以对海量问题的计算消耗也是比较大的,时间也是相对较长的。 这两年AIforscience也出现了一些代表性的工作,比如像Alphafold和Alphafoldtwo,对蛋 白质结构的预测工作。之前的工作包括谷歌的、英伟达的,DeepMind发表的这个Graphcast方面的工作,也有IBM的关于局部区域的海洋波浪的高度预测(在一个海洋的一个位置给定精度和纬度能不能预测,决定当地当时的风速能不能预测到它的波浪的高度。)。IBM之前做这样的工作,但是在一个相对较小的区域。华为发布了很多行业的大模型,用在了气象,用到了药物分子,还用到了海浪、波浪高度的实时预测。希望人工智能为传统的科学计算带来新的思路、新的工具和新的方法,也希望传统的科学计算的话,为AI带来更严密的科学的可解释性的指导。同时也要看在传统的科学计算,人工智能在哪些领域可以发挥重要的作用?应该选择怎样的AI模型,并且同时也深刻地认识到他们在这 些传统的科学计算中还有哪些优点和缺点。大模型成为应用应对AI应用碎片化一个新的开发范式。华为大模型是作为对各行各业产业赋能的重要的枢纽。我们把大模型赋能千行百业,把它分成了三个层级,从L0、L1到L2。L0是大家所说的 基础通用模型,比如GPT3,叫foundationmodel。把基础通用大模型直接应用到行业中,比如工业质检中,用到遥感影像中,可能不是一个最好的效果。因此基础模型还要和行业数据相结合。在基础模型L0基础上加入行业数据,混合训练得到的行业大模型L1,再把L1在具体下游千行百业的细分场景进行一些部署,得到它的部署模型或者细分场景的任务模型L2。 为了尽快的赋能降低生产成本,提高效率,如何从行业大模型L1中快速生产,或者高质量的部署 模型L2部署到端侧、边侧和云侧,这就是一个非常重要的问题。华为过去这几年主要做盘古系列的预训练大模型,大模型分两个阶段,第一个叫预训练阶段,用海量的数据预训练我通用的底座基础模 型。第二步在针对下游的千行百业的具体的任务,用行业数据进行微调,或者部署模型。大模型为了越用越好,大模型的迭代也是非常重要的,因为新的数据在不断地产生,如何把新的数据和之前训练用的数据结合起来,如何实现大模型的这样的增量学习,大模型的终身学习,实现模型数据应用全生命周期的迭代,让大模型越用越好就非常重要。因此我们加了第三步大模型的迭代。 华为云2019年到2021年之间就开始立项做盘古大模型,2021年4月份发布了盘古NLP大模 型,1.0盘古视觉大模型,(更多纪要加微:Syfbbd123)盘古科学计算大模型。2021年9月份用 于药物研发,做小分子/药物筛选,发布了盘古药物分子大模型。到2022年比如和能源集团的合作, 发布了盘古矿山大模型。2022年11月份,在去年的华为HC大会上,我们也发布了盘古气象大模型,在去年的HTC泰国的话,也发布了盘古海浪大模型,盘古金融OCR大模型。 基于我们的一站式开发AI开发平台ModelARTS(做了大量工作,包括计算的优化、通信的优 化、存储的优化以及算法的优化等等),我们建立了L0的基础模型、视觉大模型、NLP大模型、科学计算大模型等等,能用在各行各业的矿山、气象、药物、分子电力、海浪金融等等,同时在一些细分场景的L2的场景模型,比如金融的OCR,电力的巡检、海浪预测、小分子优化,比如做一些建筑能耗优化等等。22年盘古大模型主要是做好行业应用AIFORindustry,希望在煤矿、水泥、电力、金融、农业、国家云创造更多的产业价值,帮助客户。 案例分享 视觉大模型,用到了一些工业质检上,比如用了带一些偏光片、生产流水线的工业质检,铁路 TFDS的轨道、机车曲线检测、电力巡检,无人机的电力巡检,每天会拍摄大量的海量的照片,如何从海量照片中快速地筛选有缺陷的样本,并且做到确信。过去的话传统用几十个小模型来做这一步,现在希望用一个统一的大模型能够加快它的筛选过程,提高它的筛选检测质量。我们跟煤矿集团的合作用在矿山的矿山大模型,还有一个用在时尚辅助设计的门店半定制设计。NLP大模型去年交付了一个 阿拉伯语的千亿大模型,后面也有一些在榜单上取得了比较好的一些成绩。类案检索方面,在中国智能技术评测中去年也取得了第一成绩。在科学计算,我们发气象预测的模型,还有海浪实时预测的模 型。 盘古的视觉大模型:2021年4月份在华为HTC大会上发布,当时发布的时候是业界最大的CV 模型,大概用10亿图像训练了一个30亿参数的CV模型,已经在100多个场景得到了验证。并且在一些学术benchmark上,在imagenet在1%10%的设置下都达到这个线,分类结果达到业界的第一。 相对于自然语言处理,视觉有一些不同的挑战的问题。比如最左边的两幅图像,第一个挑战叫做语义信息高度稀疏,虽然两幅图像非常简单,第一个图像代表的是蓝天草原概念,但是这个图像所需要的空间是远远大于它语义存储的空间。第二个是数学公式,也是非常简单的,因此它的图像的存储远远大于它的语义信息的存储,因此挑战是在哪里,需要从图像中去提取信息密度更高的语义特征。应对这个问题,主要从两个方面来考虑,一个是与图像本身的,比如说属性有关的,比如它是医疗图像、工业质检的图像,或者说是遥感图像。然后通过大量的预训练过程来实现的。 另外是跟模型相关像有关的,比如这一个图像,不管是哪类图像,是关注它的局部特征,还是关注 全局注意力,因此相应设计比如transformer架构还是rnn架构,这个是通过模型设计来完成的。因此解决这样或者应对这样信息高度稀疏的问题,解决办法就是通过神经网络架构设计和预训练。另外一个挑战,同样这两幅图像,它可能表达的语义是一个选手骑在马背上,但是由于图像的采样方式不太一样,远近视角不一样,因此如果用左边的图像来做训练,再用到右边的分类上的话,模型可能性能就会下降很多。这样的一个挑战就是由于图像寓意之间的差异较大,为了解决这个挑战,它的方法是通过预迁移的方法,做针对下游的具体场景的针对性的微调,来提高它的精度。同时由于下游的一些任务面临着一些数据短缺,不好采集,数据量少的一些问题,因此要做到数据高效的微调。 如果说模型设计预训练加上下游行业数字高效微调,就是大模型预训练加微调的新的开发方式,那么CV大模型也用到了很多的案例上。第一个就和能源集团的合作,发布了华为盘古矿山大模型。井下的现场实际上可能是一个40米长采掘机,采掘钻头大概直径2米左右。因为传统的阵列式的相机很难一下子捕捉到全景,因此传统是九宫格的视频画面,通过5G加AI的全景, videostitching拼图技术,把它拼采成一个实时的现场视频或者照片来通过5G再传输到地面,让地面的工作人员将来可以实现,这是一个愿景,将来实现比如说在地面控制机器进行采掘这样的过程。因为煤矿底下确实存在的一些安全的隐患。 另外一个是用在煤矿的运输皮带上的异物监控,也就是煤被采掘下来以后,它会通过一个主运输皮带从地底下传输到地面上,皮带可能存在几十公里长。传统方法是通过煤矿工人人工巡视来发现传输带上的异物。如果在传送带上出现了一些异物,比如一些铁丝或者一些毛干,(更多纪要加微: Syfbbd123)如果出现了卡住了皮带轮的话,就会导致一些比如火灾火花的现象。矿山大模型做这样一个监控,可以让异物精度的识别达到了98%。也首先提出一种筛选策略,非正常及异常的筛选策略。 另外一个是通过矿下视频技术,对矿下安全作业规范检测,当你的作业,比如掘机动作不符合标准 的话,进行实时的预警。第二个案例是把盘古的CV大模型用在铁路TFGS,轨道机车上面的缺陷检测,追车上会出现比如说掉链、脱落、裂痕等众多潜在的不安全的因素。过去同样是通过动态的检测员来进行人工的对图像 进行inspection,人工成本比较高。过去全年有全路6000个动态检测员,人工强度也是比较大的,希望能减轻他们工作量,提供了盘古大模型核心能力,包括图像质量的自动评估、小样本的故障定位 与识别等等。在2021年9月到10月在郑州铁路段收集的32000多样本的实施的评测中,大家可以看到对于这种缺陷的或者对故障样本的检测都达到了99%以上。 华为云盘古科学计算大模型。人工智能和科学计算在模型、算法、软件、硬件四个方面加速进行融 合。我们在2022年的HT大会上,由华为云平安总发布了华为云气象大模型,它是一种3D高分辨率 的AI的气象预报方法,全球首个精度超过传统预报方式的AI模型,传统是通过数字分析的方法,排在第一梯队或者名列世界第一是欧洲气象中心。盘古可以在秒级的时间内完成全球未来全球一个小时到七天的全球的天气预报,精度也是首次超过了欧洲气象中心数值分析的方法,并且预测速度相对于传统的数字分析方法提升了1万倍以上。用在自然灾害里面,一个比如说像台风轨迹的预测,这个例子的话有三条曲线,一条是红线,一条黑线,还有一条蓝线,红线和黑线相当于alignment比较好,就是它的预测和盘古的预测是比较贴近的。蓝线是欧洲气象中心的数值分析预报的预测结果。盘古精度相对于传统的欧洲气象中心的数字预报方法提升了20%以上。 盘古气象大模型相对于业界AI的气象模型,比如英伟达的包括欧洲气象中心的,主要的一些提升,比如预测时间过去传统是六个小时,现在是一个小时做一次预测。空间分辨率来讲的话,除了在 海平面上的预测,在空间比如说海平面到高空,目前做到13层,将来随着我们做继续的训练,把空间 的精度可以做到37层,甚至做到200层。其他对于温度的预报准确度,包括气压高度匀称度,因为 气象预测有几十个要素。在台风轨迹预测上的话,我们对过去的已经发生台风100多个都做了详细对比,目前的精度大概是在0.25*0.25,大概对应的物理范围的话20公里乘20公里,将来主要是针对我们收集的数据。我们用了过去40多年全开放的气象数据来做模型的训练。未来如果我们获得了更高 精度的,比如说10公里小于10公里,