智慧涌现:⼈⼯智能的进化与实践探索 吴炳⽂ 腾讯云运营商⾏业 寒武纪时期物种⼤爆发 ⼤量⽣物类群集中的、短时间内出现 ⽣存环境+有性繁殖+⽣态多样化 ⼤模型时代智慧涌现 从⼈⼯“智障”到⼈⼯“智能” 算法+算⼒+数据 ⽬录 CONTENTS 01⼈⼯智能的发展历程 02⼈⼯智能的灵魂—算法和模型 03⼈⼯智能的基⽯—算⼒ 04新态势下如何进⾏智算投建 ⼈⼯智能的发展历程 从提出图灵测试,到ChatGPT通过图灵测试,经历了70多年的发展 典型事件 发展特点发展阶段 1943年,⼼理学家麦卡洛克和数学逻辑学家⽪兹提出了神经⽹络 1950年,艾伦·图灵提出著名的“图灵测试”,给出判断机器是否具有“智能”的⽅法 1956年,计算机专家约翰·麦卡锡提出“⼈⼯智能”的概念。 1980年,卷积神经⽹络的雏形CNN诞⽣。 1988年,贝尔实验室的莱顿 (LeCun)等⼈提出了卷积神经⽹络 受限于技术⽔平,处于路线探索和早期实践阶段 早期萌芽阶段 (20世纪40年代-80年代) 1995年,IBM推出了沃森 (Watson)超级计算机,专门⽤于⾃然语⾔理解和问答的计算机。 1997年,深蓝在与国际象棋世界冠军卡斯帕罗夫的⽐赛中取得了胜利 1998年,现代卷积神经⽹络的基本结构LeNet-5诞⽣。 2003年,神经⽹络语⾔模型NNLM诞⽣。 2006年,深度学习概念诞⽣ 信息技术快速发展,数据、算⼒不断演进,各类算法逐步成熟 沉淀积累阶段 (20世纪90年代-21世纪10年代) 2012年AlexKrizhevsky利⽤深度学习+GPU的⽅案,⼀举赢得ImageNetLSVRC-2010图像识别⼤赛。 2012年,AI⾸次⽣成图像内容 2013年,⾃然语⾔处理模型Word2Vec诞⽣ 2014年,被誉为21世纪最强⼤的算法模型之的GAN(对抗式⽣成⽹络)诞⽣。 2017年,Google提出颠覆性的Transformer架构 深度学习算法和算⼒不断迭代 ⼈⼯智能百花齐放 快速发展阶段 (21世纪10年代) 2018年,OpenAI和Google分别发布了GPT-1与BERT⼤模型。 2018年,英伟达发布StyleGAN模型⽤于⾃动⽣成⾼质量图⽚ 2019年,DeepMind发布DVD-GAN模型⽤于⽣成连续性视频 2019年,OpenAI发布GPT-2,展现出翻译与阅读理解能⼒。 2022年,OpenAI发布ChatGPT模型⽤于⽣成⾃然能语⾔⽂本 2023年,…… ⼤模型及AIGC快速发展智慧涌现 智慧涌现阶段 (21世纪10年代末期-⾄今) ⼈⼯智能的发展历程从“计算→感知→认知→创造”层层递进 ⼈⼯智能(ArtificialIntelligence)研究⽬的是通过探索智慧的实质,扩展⼈类智能,促使智能主体: 会简单推理 计算:数据的基础逻辑计算和统计分析; 会读、会听、会看 会学习、会思考 会说,会创作 感知:指基于视觉、听觉的信号,对⽬标进⾏模式识别与分类; 认知:指实现对信息的认知、理解、推理和决策,并实现⼈、物、企业等智慧实体的认知与协同; 创造:指利⽤⼈⼯智能技术进⾏⽂学、艺术等⽅⾯的创造性创作以及 ⼯业领域的智能制造。它的出现不仅改变了传统的创作⽅式、思维⽅式和⼯业模式,也为拓宽⼈类的能⼒边界增添了新的可能性。 以⼤模型为基础的AIGC,是⼈⼯智能发展到⼀定阶段的必然产物 智慧涌现:如何从“⼈⼯智障”到“⼈⼯智能”? 很长时间内,由于语⾔和表达的贫乏,⼈⼯智能被戏称为“⼈⼯智障”。然⽽,ChatGPT在全⽹的⽕爆,带来了出乎意料的惊喜。 算法算⼒ 数据 强算法—深度学习算法的成熟 ⼈⼯智能的灵魂。机器学习、深度学习、⾃然语⾔处理等算法的成熟,提升了AI的⽣产效率和准确性。 ⼤算⼒—算⼒密度和集群规模⼤幅提升 ⼈⼯智能的基⽯,⼤模型时代,计算的复杂度指数级增长,需要有强⼤的算⼒⽀撑。 优质的算法、算⼒、数据,推动⼤模型落地和智慧涌现 ⼤数据—⾼质量、⼤规模、多样性的数据集 ⼈⼯智能发展的“原料”。⼤数据的⼴度和深度可以帮助模型更好地理解复杂的现象和问题,并提升其泛化能⼒。 ⽬录 CONTENTS 01⼈⼯智能的发展历程 02⼈⼯智能的灵魂—算法和模型 03⼈⼯智能的基⽯—算⼒ 04新态势下如何进⾏智算投建 如何让计算机像⼈⼀样思考 要解决⼈类的各类任务,先要让计算机模拟⼈类的学习机制 ⼈类⼀眼能辨别猫或狗计算机很快能完成计算任务 婴⼉在电视中、现实中等获得⼤量信息,然后⼤脑将接受的信息进⾏学习、归纳、整理、总结,最后形成我们的知识与经验。 计算机的能⼒源于计算,如何将计算转化成感知、认知、创造能⼒? 如何让计算机像⼈⼀样思考 “联结主义”(Connectionism),⼜叫仿⽣学派,笃信⼤脑的逆向⼯程,主张是利⽤数学模型来研究⼈类认知的⽅法,⽤神经元的连接机制实现⼈⼯智能。 感知理解 储存检索 创作想象 图⽚ 声⾳ 判断执⾏ 学习归纳 整理总结 ⽓味⼈类⼤脑的神经元数量⼤约在860亿到1600亿之间 GPT3.5的参数为1750亿,当“神经元”达到这个数量级时,AI涌现出了智慧 如何让计算机像⼈⼀样思考 inpu坏 t苹 果 多层神经⽹络:通过数学⽅法,对复杂函数的逼近和优化。 反向传播算法:在训练过程中,如输出结果发⽣错误,采⽤反向传播算法调整参数。 卷积神经⽹络、循环神经⽹络、⽣成对抗⽹络、深度强化学习。 Transformer在⾃然语⾔处理领域⼤放异彩,成为机器翻译、语⾔建模、⽂本⽣成和⽂本分类等任务的主要推动⼒。 ⼤模型是深度学习的重要成果,AIGC兴起背后是⼤模型的重⼤进步 ⼤模型本质上也是基于深度学习领域的算法和庞⼤复杂的神经⽹络,需要通过更⼤的参数来增加模 ⼤模型是指具有⾮常⼤的参数数量的深度学习模型,通常具有数亿到数万亿参数。这些模型通常需要在⼤规模数据集上进⾏训练,并且需要使⽤⼤量的计算资源进⾏优化和调整。 ⼤模型 模型的本质是对现实世界中数据和规律的⼀种抽象和描述。模型的⽬的是为了从数据中找出⼀些规律和模式,并⽤这些规律和模式来预测未来的结果。在科学应⽤中模型⽆处不在。 模型 型的深度和宽度,从⽽提升模型的表现能⼒,基础⼤模型的参数从百亿起步,对海量数据进⾏训练并产⽣⾼质量的预测结果。 ⽣成式⼈⼯智能指基于⼈⼯智能通过已有数据训练,并⾃动 ⽣成内容的⽣产⽅式。在⼤模型技术推动下,AIGC有了飞速 发展,我们熟知ChatGPT就是基于GPT⼤模型的AIGC。 ⽣成式⼈⼯智能(AIGC) “⽣成式”(AIGC)让AI具备了⾃主创作能⼒ AIGC有望成为主流内容⽣产模式 内容⽣产的⽅式:专业⽣产内容(PGC)、⽤户⽣成内容(UGC)、AI⽣产内容(AIGC) AIGC能克服传统PGC与UGC存在的质量、产量⽆法兼具的缺点,有望成为未来主流的内容⽣产模式。 PGC 电视、电影、游戏等 由专业团队⽣产,内容质量⾼ ✗⽣产周期长,内容⽣产门槛⾼,垄断严重 短视频、微博、朋友圈、播客等 创作⼯具下放,⽤户可⾃⾏⽣产内容,创作门槛、成本降低 内容⽣产参与者众多,创作⽣态繁荣,个性化程度⾼ ✗创作者参差不齐,内容质量不⾼ UGC 阶段1:AI辅助⽂字创作,图⽚创作等 辅助内容⽣产环节,提⾼内容质量 减少创作耗时,提⾼内容⽣产规模天花板阶段2:AI⾃主⽂字创作,图⽚创作等 实现完全⾃主性 AIGC 腾讯⼤模型AIGC如何应⽤ ⽬录 CONTENTS 01⼈⼯智能的发展历程 02⼈⼯智能的灵魂—算法和模型 03⼈⼯智能的基⽯—算⼒ 04新态势下如何进⾏智算投建 算⼒是AI产业发展的基⽯ 算⼒是承载⼈⼯智能应⽤发展的基⽯,是当前制约⼈⼯智能发展最核⼼的要素 算⼒、算法和数据是⼈⼯智能产业发展的三个核⼼要素,在三⼤要素中,算⼒是当前制约发展最核⼼的要素 算法模型的复杂化和巨量化需要更强算⼒的⽀撑。近些年,算法模型的参数量和复杂程度都在呈现指数级增长态势,尤其是⾃然语⾔处理等新兴认知智能领域对算⼒的要求远超图像识别和语⾳识别等传统AI领域,模型参数成亿级飙升到万亿级别,对算⼒性能提出了更⾼的要求。 算⼒是承载和推动⼈⼯智能⾛向实际应⽤的决定性⼒量 数据的⽣产已经不再是难题,如何有效地处理、分析和利⽤这些数据成为了关键所在。经过数⼗年的演进,算法在深度学习和加速计算等技术的推动下,取得了显著的进步和优化。这使得我们能够更加⾼效地挖掘数据中的价值,从⽽推动各个领域的创新和发展。 数据的爆发式增长对算⼒提出更⾼要求。随着信息化的加速和数字化的深⼊,全球数据量呈现迅猛增长的趋势。根据IDC的统计,2022年,全球新增数据量接近100ZB,⽽预计到2026年,这⼀数字将飙升⾄200多ZB。从2022年到2026年,全球数据量的年复合增长率超过20%。这种快速的数据增长对计算能⼒的发展提出了更⾼的要求和挑战。 ⼤模型的出现,推动AI算⼒需求快速放量 ⼤模型的出现对算⼒需求带来了指数级的增长。 OpenAI发布的GPT-3模型包含1750亿个参数,需要进⾏数千万次的计算操作来完成⼀次推理任务。 ChatGPT的总算⼒消耗约为每天3640P,ChatGPT3.5训练的单次成本就⾼达460万美元,整体运⾏所需的投⼊更是以百亿计。 对算⼒的需求,推动了新的处理器架构、⾼速⽹络、存储技术、调度技术,更⾼效的冷却和能源管理系统等技术的发展,更⾼效的智算中⼼的性能和效率,成为重⼤的研究课题。 在产业迅猛发展和现有国际竞争态势下,国产化GPU进⼊发展的快车道。 AI⼤模型训练需要⾼性能计算集群 •训练模型参数的增长,带来模型训练消耗的算⼒提升,算⼒集群GPU卡达到万卡级别,预计 GPT-5达到5万卡。 算⼒加速⽐ 算⼒需求 HBM池化需求 理论算⼒ n ⽹络>50% 通信耗时 ⾼性能⽹络 集群算⼒ n ⼤规模 #GPUs ⼤算⼒ •训练中的GPU需要严格同步,任何通信的阻滞,均会造成训练性能损失。混元GPT-3测算, 通信占⽐提升10%,训练时间增加3%~4% ⼤模型的出现,推动AI算⼒需求快速放量 AI⼤模型代表 参数量 单次迭代通信量 训练卡数需求 ChatGPT 175B TB~10TB级 千卡集群 GPT-4 1800B PB级 万卡集群 Gemini 4倍GPT-4 nPB级 5.4万TPU ⾼性能计算⽹络核⼼挑战:⼤规模、⾼性能、⾼可⽤ ⼤规模,⾼带宽:集群规模⼏K~⼏万卡,单卡接⼊速率400G。⽀持不同训练任务混跑、不同GPU卡的混部。传统DCN100G接⼊,单POD规模1.5k。 ⾼性能,90%负载下零丢包:GPU训练是瞬时吞吐90%,且通信对丢包敏感,0.1%丢包损失50%算⼒,需要⽹络做到传输⽆损。传统DCN利⽤率<40%,丢包率0.1%~1%。 ⾼可⽤,零中断:⼀旦⽹络中断,任务重启需要约1.5⼩时,需要减少⽹络中断。 单节点计算能⼒提升,向分布式、混合式并⾏模式演进 计算领域,两⼤技术⽀撑算⽹应⽤发展。⼀是单卡训练转变为分布式训练; ⼆是数据并⾏训练升级到数据+模型多维并⾏训练。 智算服务的产出:关键是提升算⼒的利⽤率、⽣产率提升服务化⽔平 2023年腾讯全球数字⽣态⼤会腾讯云携⼿中国信通院正式发布《智算赋能算⽹新应⽤⽩⽪书》:算⼒作为数字经济时代的核⼼⽣产⼒,其产出不仅和算⼒的投⼊有关, ⼤模型算⼒集群 •软硬⼀体的⾼性能智算集群 •⾯向AIGC场景进⾏定制优化 •⾃研⽹络、存储架构、服务器 •⽀持分布式云、私有云部署 万亿参数⼤模型训练时间 50天 4天 建设⼀站式⼯具箱,加速智算应⽤落地 借助AI构建相关应⽤,涉及到包括数据处理、特征⼯程在内的多个步骤 及各类⼯具,⼀站式加速⼯具箱将有效加速开发效率、简化开发流程。 发展⾼性能