您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[华为]:人工智能行业:预训练大模型白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

人工智能行业:预训练大模型白皮书

信息技术2023-09-19华为徐***
人工智能行业:预训练大模型白皮书

预训练大模型 白皮书 高文 中国工程院院士鹏城实验室主任北京大学博雅讲席教授 PREFACE 自1956年人工智能在达特茅斯会议上被提出,人工智能领域的学者一直致力于提升算法的通用性能力,即希望人工智能方法能够像人类一样,快速灵活地适应各种实际应用问题,提升人类社会的生产效率。然而,在人工智能发展的前半个世纪,学者们始终没有找到合适的方法论,而包括符号计算、专家系统等精心设计的模型,都只能用于少数限定场景,无法拓展到以计算机视觉、自然语言处理为代表的复杂系统中去。 21世纪初,随着硬件性能的演进和大数据的兴起,情况发生了根本性的变化。 2010年开始,深度学习以席卷之势,占领了人工智能的大部分领域,在许多公测数据上取得了前所未有的精确度。深度学习的本质是统计学习,即通过在大量数据上拟合复杂函数,使得该函数具有泛化能力。时至今日,这种范式已经取得了巨大的成功:一个深层神经网络,只要在不同数据上训练或者微调,就能够应用于不同的任务,而这件事在20年前是几乎无法想象的。 然而,基于深度学习的人工智能方法,依然存在明显的缺陷。对大数据和大算力的强烈依赖、对参数调节的敏感性,都在无形之中抬高了人工智能算法的使用门槛。为此,我们迫切地需要一种新思路,打通通用数据和领域知识,并且大幅度地降低人工智能研发的人力和算力成本。为此,业界提出了预训练大模型的范式,通过收 集海量训练数据,并通过一种称为预训练的过程,将其中蕴含的知识存储于大规模神经网络,即大模型之中。如此,这个预训练大模型就具有了很强的泛化能力,并且可以通过简单的微调操作,将其能力应用到下游任务中去。在过去五年间,预训练大模型在自然语言处理、计算机视觉等领域取得了长足的发展,模型规模屡创新高,模型泛化性也不断提升。而我也欣喜地看到,预训练大模型已经在华为取得商业应用,成功落地在工业质检、智慧交通、时尚设计等多个产业中。 人工智能的前路依然漫长。预训练大模型正在逼近统计学习方法的极限,但是它也有无法解决的课题,包括模型的可解释性和安全性等难题。同时,大模型的功耗远远超过人类大脑,也意味着这种方式也许不是最优的解决方案。总的来说,当前的人工智能正处在历史的十字路口,业界需要在预训练大模型的基础上做出抉择,走出未来的发展道路来。 在上述背景下,华为公司发布《预训练大模型白皮书》,具有重要的意义。我相信,华为在大模型的研发和落地上的投入,最终会给学术界和产业界带来启发,成为扩展人工智能能力边界和推动人工智能产业升级的强大力量。 张平安 华为高级副总裁华为云CEO PREFACE 当今世界正面临百年未有之大变局。以人工智能、大数据、物联网、云计算和5G为代表的数字化技术,正在深刻地驱动产业变革,重塑全球的技术和产业格局。其中,人工智能发展的经济和战略意义,已经取得了包括中国在内的全球许多国家的共识。 2021年,习总书记在主持中央政治局第三十四次集体学习时强调,支持人工智能和实体经济深度融合,建设数字中国、智慧社会,推进数字产业化和产业数字化,打造具有国际竞争力的数字产业集群。2022年8月,科技部等六部门联合印发了《关于加快场景创新以人工智能高水平应用促进经济高质量发展的指导意见》,系统指导各地方和各主体加快人工智能场景应用,推动经济高质量发展。发展人工智能已经是世界高科技的方向标之一,也成为了全球各个强国推进前沿研发的纲领性原则和激烈竞争场。 作为当前人工智能领域最前沿的课题和最有力的武器,预训练大模型无疑是这场竞争中的焦点之一。以自然语言处理领域为例,预训练大模型的参数规模已经从2018年的亿级来到了2022年万亿级,几乎每年都能看到数量级上的提升。预训练大模型是一项庞大的系统性工程,不仅涉及到先进算法的研发,还需要硬件、框架、开发工具的支持。华为公司构建了从昇腾+鲲鹏芯片到AI开发框架 MindSpore和AI开发平台ModelArts的全栈式开发能力,并基于这些能力提出了《盘古预训练大模型》。一年多以来,盘古大模型持续演进,在计算机视觉、自然语言处理、科学计算等领域为业界贡献了先进的算法和解决方案。截至2022年,盘古大模型已经被应用于十余个行业的百余个场景,为研发人员提供了新的开发方案,也取得了可观的商业价值。实践表明,盘古预训练大模型能有效减少专家的干预和人为调优的消耗,降低人工智能开发的门槛和成本,这对践行普惠AI,实现人工智能的泛化和规模复制,具有非常巨大的意义。 在整合大模型研发和落地经验后,华为团队撰写了《预训练大模型白皮书》,旨在将自身对大模型的洞察毫无保留地分享给业界,以期推进以大模型为核心的人工智能产业的健康发展。前路是艰辛的,前途也是光明的。人工智能经历六十余年的沉浮,始终没有放弃“减少重复劳动”和“扩展人类知识边界”这两大根本目标。只要不忘初心、牢记使命,技术研究和行业落地就能更紧密地结合起来,在发展技术的同时,为人类社会创造更多的福祉。 高新波 教授重庆邮电大学校长 国家杰出青年科学基金获得者教育部长江学者特聘教授 古有盘古开天地,今有华为大模型。为解决人工智能算法落地的碎片化困境,预训练大模型应运而生。自华为云团队发布盘古预训练大模型以来,形成了全栈式AI解决方案,在很多领域获得了成功的应用。相信《预训练大模型白皮书》将会引领大模型健康发展,为通用人工智能探索一条可能的新路径。 庄越挺 浙江大学计算机学院教授 国家杰出青年基金获得者教育部长江学者特聘教授教育部人工智能协同创新中心主任 FOREWORD 预训练大模型是当前新一代人工智能领域最前沿的研究方向,正成为世界各科技强国竞争的焦点。预训练大模型率先在自然语言处理领域取得突破性的进展,并迅速拓展到涉及图像、视频、图形、语言等跨媒体推理的各类任务和大量的商业应用之中,展现了巨大的发展潜力。华为云发布《预训练大模型白皮书》,正逢其时,必定对AI行业产生有价值的指导作用,也体现了作为一个科技大公司的担当精神。我相信,预训练大模型可望成为跨媒体智能的重要技术手段。 张民 教授哈尔滨工业大学(深圳)特聘校长助理 计算与智能研究院院长国家杰出青年基金获得者 预训练大模型被称为人工智能应用的基础设施,它具有强大的知识建模、知识获取和应用泛化能力。华为云《预训练大模型白皮书》以华为云盘古大模型家族为代表,全面介绍了华为在大模型方面的系列创新性工作,包括视觉、语音语义、多模态、科学计算、图网络大模型,以及产业落地经验和对未来发展的展望。这本白皮书会给学术界和产业界提供重要的启发和借鉴。 李厚强 教授中国科学技术大学信息学院副院长IEEEFellow 国家杰出青年科学基金获得者教育部长江学者特聘教授 预训练大模型是人工智能领域的研究热点和前沿技术,近年来在自然语言处理、计算机视觉等方向取得了巨大成功。华为云团队撰写的《预训练大模型白皮书》,将其在大模型研发和落地中的经验总结出来,分享给学术界和工业界,对推动预训练大模型理论、方法、技术、应用的发展具有重要意义。 熊红凯 上海交通大学特聘教授 国家杰出青年基金获得者教育部长江学者特聘教授 爱因斯坦说:这个宇宙最让人难以理解的地方,就是它竟然是可以被理解的。斗转星移,大数据和人工智能在21世纪,为我们开启了一个理解人类自身认知的帷幕,逐步融入了我们的日常生活;也正是在这样一种时代背景下,旨在建立一种通用智能的“大模型”应运而生。它寄望于“预训练大模型+下游任务微调”的方式,将知识存储到大量参数中,扩展模型的泛化能力。很大意义上,对大模型的落地部署,能够超越产业和国家的界限,实现人类社会的福祉。华为公司的《预训练大模型白皮书》,我相信,能为我们建立普遍理性和平等的社会,提供强大的力量。 姜育刚 复旦大学教授博士生导师 教育部长江学者特聘教授复旦大学人事处处长 近年来,以GPT-3、CLIP为代表的超大规模预训练模型被陆续提出,通过在海量数据上进行自监督学习,有效提升了自然语言处理与计算机视觉领域多个下游任务的性能。 华为云在预训练大模型领域有着深厚的技术积累,于2021年发布了“盘古”系列超大规模预训练模型,受到了学术界和工业界的广泛关注。 华为云《预训练大模型白皮书》总结了大模型的发展趋势及其带来的机遇,为未来研究提供了重要借鉴。 引言 PREFACE 让预训练大模型成为AI的操作系统 AI走进企业核心生产系统,开始创造更大价值 “2025年,企业对AI的采用率86%(当前4%)” EIAI实践:600+项目,30%进入生产系统,但是 封闭的作坊式的AI开发局限于特定的场景。特定的数据无法满足AI快速落地行业的需求 07 模型1 定制 专家专家专家 场景1 模型2 定制 专家专家专家 场景2 模型3 定制 专家专家专家 场景3 AI进入千行百业面临诸多挑战 3行业普通AI模型攻击、隐私、安全担忧 2行业知识与AI技术结合困难 1场景碎片化,作坊式开发难以规模复制 高成本,高门槛、无积累 如果人们对电磁的理解停留在法拉第的电磁感应层次而没有麦克斯韦的电磁场理论,电气革命是不可能发生的。如果刮风下雨打雷甚至连温度变化都会导致断电,电怎么可能变成一个普惠性的产品,怎么可能变成社会基础设施? 近年来,国内的云计算市场增速明显,企业上云明显提速。客户的需求逐步从“资源型需求”转向“智能型需求”及“业务型需求”,意味着PaaS、SaaS等各行业各场景的云解决方案将受到更多关注。尽管该市场呈现出了广阔的前景,业务的庞大数量和场景种类夸张的多样性也意味着巨大的难度。随着市场的成熟上升,“一招鲜吃遍天”的套路相对于针对用户需求定制化的解决方案已不具优势,意味着在细分领域深耕的中小型友商也具有瓜分市场的竞争力。因此,如何在保证市场占有率并支撑如此大量的业务的情况下,控制资源和成本、保证交付效率和保证产品质量是云厂商要解决的核心难题。 另一方面,随着工业生产越来越强调智能化,大量传统行业开始积累领域数据,并寻求人工智能算法以解决生产和研发过程中遇到的重复而冗杂的问题。这就意味着,人工智能算法在落地的过程中,将会面对大量不同场景、不同需求的用户。这对算法的通用性提出了很高的要求。然而我们注意到,当前业界大部分人工智能开发者,正在沿用传统的“小作坊模式”,即针对每个场景,独立地完成模型选择、数据处理、模型优化、模型迭代等一系列开发环节。由于无法积累通用知识,同时不同领域的调试方法有所不同,这样的开发模式往往比较低效。特别地,当前人工智能领域存在大量专业水平不高的开发者,他们往往不能掌握规范的开发模式和高效的调优技巧,从而使得模型的精度、性能、可扩展性等指标都不能达到令人满意的水平。我们将上述问题,称为人工智能算法落地的碎片化困境。 超大的神经网络强壮的网络架构优秀的泛化能力 多模态大模型 科学计算大模型 CVNLP 大模型大模型 (30亿参数)(千亿参数) 场景1 模型1 流水线 泛化复制 场景2 模型2 流水线 华为云盘古大模型 「AI工业化开发」 预训练模型 场景3 模型3 流水线 预训练 微调&部署 迭代 盘古大模型 模型泛化极大节省训练投入流水线工具集成训练更快 效率提升 10-100倍 更佳模型性能 为了解决这个困境,预训练大模型应运而生。它收集大量图像、文本等数据,利用无监督或者自监督学习方法将数据中蕴含的知识提取出来,存储在具有大量参数的神经网络模型中。遇到特定任务时,只要调用一个通用的流程,就能够将这些知识释放出来,并且与行业经验结合,解决实际问题。近年来,预训练大模型相关研究和应用呈井喷态势,大有一统人工智能领域的趋势。不过我们也应该看到,预训练大模型距离规模化的商业应用,还有很长的路要走,这里不仅包含技术的演进,也包含商业模式的进化。按照我们的设想,大模型是未来AI计算的“操作系统”,向下管理AI硬件,向上支撑AI算法,使得AI开发更加规范化、平民化。我们希望通过编写《预训练大模型白皮书》,将我们团队在研究和落地中获得的经验总结下来,更好地促进行业的进步。 0