编者按 本期《华为研究》针对AI在应用、计算、算法领域,介绍了AI在工业和科学建模计算等问题上的应用与前景、高效计算架构体系、数据类型、软硬件协同、算法模型架构和原理探索,对AI当前各个维度的问题进行了深入浅出的分析。 首先针对AI在工业和科学建模计算等问题上的应用与前景做了系统阐述,包括过去两百多年的科学无法解决并且直接套用AI统计建模存在困难的领域,比如科学、工业中的建模和求解;计算图形学与媒体的融合,构建全息媒体表征、非几何的3D场景建模等;制造与复杂环境以及人类共存的智能器械,构建无坐标系的机器人学等;在信号与系统中,对非线性系统的信号处理,构建更高精度的建模和处理方式。希望为下一代AI解决这些难题做了一些思考与指引。 计算作为技术底座,《空间计算》介绍了非冯诺依曼体系结构的空间计算架构,以其优秀的扩展能力,应对以AI为代表的对算力指数增长的需求。基于任务的编程与执行,高并行度可以提升性能和降低能耗,《支持优先级变更与投机执行的任务级并行模型》介绍了Hive,一个基于任务的执行模型和多核架构,利用优先级更新从算法中提取丰富的细粒度并行度,安全地投机调度更新,防止任务间虚假冲突,构建先进的硬件解决方案,性能远超纯软件并行调度。《AI训练集群光电混合交换网络探索》介绍了兼具大规模、高带宽和灵活性的光电混合交换网络,解决AI和HPC等重算力场景的成本和功耗困扰,且在关键通信算子上,用新型集合通信算法对光电混合交换网络进行适配。《AscendHiFloat8AI训练和推理》提出了一种全新的8比特浮点数据格式HiF8,及其基础上的AI训练和推理方案,以极小面积代价获得两倍算力提升。针对限制硬件性能瓶颈的复杂计算指令浮点平方根,《一种双精度浮点数平方根计算原理和超短延迟微架构设计》介绍了一种高低位分离的浮点平方根计算精度倍增的方法,并创新地设计了其微架构设计,实现性能的显著提升。 软硬件协同设计与优化中,动态编译可以用其独特的方式来观察程序的执行状态,《动态编译与执行的阴阳平衡之道》介绍了如何为其构建硬件辅助执行平台,在硬件中用软件引导高度聚焦的Profiling,用较低开销获取详细执行状态信息《以数据为中心的高性能计算应用自动调优》介绍了“以数据为中心”的优化方法DCTuner,通过剪枝、探索隐式解空间等方法,在将HPC应用提升性能的同时,保障较高的性能可移植性。《谦逊英雄》提出的ALP/Pregel范式在共享内存并行系统上扩展性良好,在常见的图算法任务上实现了高达17.8倍的加速,证明单个软件栈可以支持多个谦逊编程模型。《异步训练与MoRe》针对异步训练提出一种动量重建方法,在保持收敛速度和泛化能力的同时,达到内存减半。《层次化电路方程组构建器的计算图表示》一文用计算图表示的支持动态模块参数的方程组构建器及相应的JSON网表,可简化模型开发且易于快速计算参数到方程组残量的端到端梯度。 多领域多模态AI算法和其原理探索方面,《MDMMT-2》介绍了文本-图像、文本-视频等领域的数据、训练等多语言-视频检索模型,在不引起先验知识劣化的同时,提升知识迁移效率和利用噪声数据集进行训练。《Wasserstein鲁棒强化学习》介绍了一种新型的零阶优化方法,可以高效求解基于Wasserstein距离约束下的鲁棒强化学习Max-MinGame,在高维MuJoCo环境中仍具有显著增益。作为AI中最广泛的张量表征,《随机张量理论、算法和应用》介绍了张量及其分解方法,以及随机张量理论在有监督和无监督学习表征的应用。在未来如何实现低能耗大规模计算,《动力系统与控制论视角下的计算观》将计算视为一个如何控制动力系统从初始状态向目标输出的最终状态转化问题。从动力系统和控制论角度出发,提出一种兼顾能耗和精度的全新混合物理系统理论框架构想。 廖恒2012实验室首席科学家 华为研究 内部资料,免费交流 准印证号:(粤B)L0230030 主编: 廖恒 本期责任主编: 廖恒 编委会: 廖恒,童文,肖新华,胡邦红,周慧慧,鲍丰,JeffXu,陈海波,陆品燕, 王建兵,李瑞华,白博 索阅、投稿、建议和意见反馈,请联系:HWResearch@huawei.com 印刷数量:4000本 印刷单位:雅昌文化(集团)有限公司印刷地址:深圳市南山区深云路19号印刷日期:2024年6月25日 目录 前瞻瞭望 科学与工业中的AI应用及其前景02 廖恒,张林峰,李琳 技术底座 空间计算:基于计算图的高可扩展性计算系统10 王天祺 支持优先级变更与投机执行的任务级并行模型22 GileadPosluns,YanZhu,张帼玮,廖恒,MarkC.Jeffrey AI训练集群光电混合交换网络探索35 沈胜宇,陈迪,凌文凯,王景燕,胡天驰,谢尚港,陈天翔,任杨,贺继方,端启航,常泽山,林伟彬,刘欣,米光灿 AscendHiFloat8AI训练和推理61 罗元勇,伍玮翔,张忠星,陈敏琪,郑楷,陈官富,李震桁,杨升 版权所有©2024 华为技术有限公司,保留一切权利。 一种双精度浮点数平方根计算原理和超短延迟80 微架构设计 罗元勇,龙子超,谷志岩,王建峰 协同优化前沿探索 动态编译与执行的阴阳平衡之道 软硬件协同设计机会点分析 MariaCarpen-Amarie,ReneMueller,KonstantinosTovletoglou 以数据为中心的高性能计算应用 92 108 MDMMT-2:多领域多模态Transformer视频检索模型提升泛化性能 MaksimDzabraev,AlexanderKunitsyn,MaksimKalashnikov,AndreiIvaniuta 172 自动调优 闫柏成,GiulioStramondo,曹宗雁,王哲,王龙 “谦逊英雄”119 A.N.Yzelman Wasserstein鲁棒强化学习185 HaithamBou–Ammar,任航,MohammedAminAbdullah,VladimirMilenković,罗睿,张鸣天,汪军 随机张量理论、算法和应用194 MohamedElAmineSeddik,MaximeGuillaud 异步训练与MoRe:一种用于实现低内存流水线式模型并行训练的动量重建技术 RomanTalyansky,ZachMelamed,PavelKisilev,IdoHakimi 141 动力系统与控制论视角下的计算观214 孙杰,DanielEbler,LeonarduzziRobertoFabio 层次化电路方程组构建器的计算图表示 158 龙子超,李琳,韩磊,孟祥隆,丁翀俊,李瑞艳,蒋武,丁福臣,岳家庆,李志超,胡贻升,李定,廖恒 前瞻瞭望 科学与工业中的AI应用及其前景 廖恒,张林峰,李琳 摘要 过去十年,基于连接主义的AI算法,从实践层面为图像分类分割、语言机器翻译等非物理建模任务提供了更为有效的统计建模方法,同时催生了新兴产业并相应创造了巨大的经济价值。这些任务所面对的问题,用过去两百多年的物理建模方法(或者说基于规则的建模方法)是无法解决的,因此AI算法快速吸引了大量学术界和工业界人士的注意。但是,还有很多困难且重要的问题,在过去两百多年的科学发展中并未得到很好的解决,部分问题甚至于一筹莫展。与此同时,如果将AI统计建模方法直接套用到这些问题中,大多也无法产生实用性的效果。这些问题涉及的领域包括:科学、工业中的建模和求解;计算图形学与媒体的融合,构建全息媒体表征、非几何的3D场景建模等;制造能够与复杂环境以及人类共存的智能器械,构建无坐标系的机器人学等;利用结构化的高级知识系统,进行开放域/封闭域的问答,自动化定理证明等;在信号与系统中,对非线性系统的信号处理,构建更高精度的建模和处理方式。本文综述这些领域的已有研究,并提出作者的进一步思考。 关键词 高性能计算,AI 1引言 近十年来,AI算法在部分领域的实践应用中产生了巨大的经济价值。 首先,在安防领域,AI算法在计算机图像分类、分割、压缩、增强、识别等能力上获得质的飞跃,逐渐媲美甚至超过人类的图像处理能力;加上AI算法在海量数据存储、读取和检索等方面的提升,它们极大地提升了社会安防工作的效果。 第二,在手机领域,以手机随手拍为例,基于AI的图像处理方法保证了随手拍的照片质量。 第三,在自动驾驶领域,AI技术深入到了环境建模、道路车辆和障碍物的感知与预测、决策与控制,以及电池管理的每个环节中。 第四,在互联网领域,基于大数据分析可以获得用户特征画像,从而为用户推送更为个性化的内容,提供更好的互联网体验。 从本质上来说,深度学习、强化学习中以数据为驱动的神经网络模型架构,打破了传统计算机算法基于解析的解题框架,使得基于大数据统计的AI算法在传统科学无法解决的问题领域中大放异彩并取得巨大成功。然而,上述热点领域的成功应用,同时暴露出比较严重的同质化研究倾向,大量的科研工作者在追随热点浪潮时,忽略了一些更加关键、更为困难,也因而需要更多攻坚投入的其他领域。 本文重点聚焦当前AI与科学无法充分解决、但又非常重要的若干问题领域: •新科学计算与工业计算的新思路 •计算机图形学与多媒体通路融合的新突破 •机器人实现自主性的新范式 •结构化知识学习与推理的新理解 •AI的物质基础 2新科学计算与工业计算的新思路 人类的科学文明,在实验、理论、计算三个轮子上发展前进,获得并扩大对信息、能量、物质的掌控能力。在拥有大数据处理能力前,对信息的高效处理,主要依赖基于数学符号的物理建模,这样的模型具有简单、具体、可演绎推理、部分可解析/数值计算、部分可实验定量检验的优势。例如,抽象出质点、刚体等概念,就可以利用基于质点概念的位置、速度等参数,推理出牛顿定律。然而,在一个复杂系统中,优势可能变成劣势,导致使用“真空球形鸡”模型进行计算时,模型无论如何演变都无法真正地解决问题。在 当下新的历史机遇中,数据的获得、存储与计算都变得空前强大,这时要高效地处理信息,除了采用传统的物理建模方法,是否可以挖掘更多、更有效的方式,实现对信息的物尽其用?接下来,我们从传统应用数学——符号和实验紧密结合的一门学科——的五个主要环节进一步展开分析: •对领域问题进行数学建模 •找到求解问题的解析方法,或数值方法 •将求解问题的方法设计成计算机算法 •将算法编写成软件程序 •对算法和软件进一步迭代优化,实现大规模并行化 2.1对领域问题进行数学建模 数据是“智力”的结果。然而,数据虽然蕴含了“智力”的精髓,其所蕴含的“智力”信息却是支离破碎的,这也是我们的文明进程表现得曲折而漫长的原因所在。传统的数学建模,本质上是找到事物对应的抽象等价表征,包含概念定义、假设条件、数学关系表达等。虽然数学关系表达吸引了大部分学者的注意力,但概念定义和假设条件才从本质上决定了传统数学建模的质量和意义。我们以开普勒定律和牛顿定律为例。开普勒定律中,根据笛卡尔定义的几何语言,用行星坐标、时间和轨道参数的数学表达来等价表示天体运动。而牛顿定律又在开普勒定律所定义的概念基础上,额外定义了质量、作用关系、加速度等概念。仅仅是“质量”这一个概念,就把所有物质通过一个量纲统一起来。大到太阳、月亮,小至手中的苹果,都是具有“质量”这一统一量纲的物体。从公元前欧几里得的《几何原本》,到17世纪牛顿的《自 然哲学的数学原理》,再到20世纪爱因斯坦的《广义相对论》,都采用了诸如此类数学与物理上的符号抽象表达。从19世纪伽罗瓦的群论,到后来的量子力学和量子电动力学,用四种“基本相互作用”把自然界无机物的“作用关系”基本统一了起来。这种“等价”和“统一”的表征方式,在科学文明的归纳、演绎和传播学习中展现出了极大的优势。 物质层面“作用关系”的等价表征给人类社会带来了巨大变革,但在意识(人类智能)层面尚未找到能够用于建模的统一表征。首先,从系统内部(大脑)获取参数不可行;其次,在开放域,使用人类归纳的规则并不足以解决问题。以机器翻译为例,这项肇始于20世纪