您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:乐元素&Intel案例白皮书 - 发现报告
当前位置:首页/其他报告/报告详情/

乐元素&Intel案例白皮书

2024-03-25腾讯「***
乐元素&Intel案例白皮书

白皮书 英特尔®至强®可扩展处理器 英特尔®高级矩阵扩展(英特尔®AMX) 基于第五代英特尔®至强®可扩展处理器的 新一代腾讯云服务器加速乐元素游戏AI推理 “伴随着人工智能的快速发展,越来越多的玩家希望能体验到更创新的游戏体验。腾讯云依托腾讯内部多个人工智能实验室,将AI与云深度融合,通过公有云的方式开放给行业,让客户实现高效接入、灵活使用,推动业务的智能化再升级。” —许华彬 腾讯云副总裁 “AI正在为游戏产业带来巨大的革新,并已经在众多流行游戏作品中得到成功应用。要想在这场技术浪潮中获得先机,游戏企业需要更加重视AI战略的执行,并在AI算力基础设施上投入更多的精力。英特尔为游戏企业提供了涵盖多种软硬件的AI全栈解决方案,能够帮助游戏企业解决AI应用的算力困扰,加速拥抱AI创新。” —陈葆立 英特尔数据中心与人工智能集团副总裁 中国区总经理 “在游戏开发与运营中采用AI已经成为我们的一项关键步骤,但这也带来了显著的算力需求。基于第五代英特尔®至强®可扩展处理器的新一代腾讯云服务器在性能方面展现了明显的优势,特别是在游戏模型推理性能上的表现,让我们感到非常满意。我们计划未来在更多线上环境中部署和使用这款服务器,同时也期待能够与英特尔共同探索更多的技术创新,以便为各种使用场景带来更强的性能提升体验。” —钱晓东 乐元素开心消消乐制作人 概述 针对关卡上线流程长、难度不易预测、玩家离线数据真假难辨、新玩法兼容旧关卡等问题,移动网络游戏研发及运营商:乐元素科技(北京)股份有限公司(以下简称:乐元素)创新地在关卡设计等流程中引入了人工智能(AI)技术,从而加快关卡设计质量与效率。但同时,AI技术的应用也带来了AI算力挑战,如何构建高性能、低成本、高灵活性的AI算力平台成为乐元素需要考虑的重要问题。 为进一步给用户提供更流畅、优质的游戏体验,乐元素引入了基于第五代英特尔®至强®可扩展处理器的新一代腾讯云实例S8,比上一代服务器的整体性能提升了23%1。除此之外,乐元素与英特尔紧密合作,采用处理器内置的英特尔®高级矩阵扩展 (英特尔®AMX)等高级硬件能力,以及英特尔®oneAPI和英特尔®深度神经网络库(英特尔®oneDNN)等软件技术,提升AI推理等方面的性能表现,并在自研打关模型/ResNet-50等模型推理中得到成功验证。 挑战:AI模型推理需要强大的算力作为支撑 近年来,乐元素在旗下热门游戏中,强化了AI技术的应用。以 《开心消消乐》为例,该游戏是一款消除类休闲游戏,画面精美、上手简单、轻松有趣之余,又充满惊喜与挑战。游戏拥有9 大关卡类型、60余种障碍设计、8000多个精心设计的关卡,关卡制作是这款游戏运营工作的主要内容之一。在《开心消消乐》中,用户每日都会进行游戏关卡挑战,而关卡的质量对于游戏的收入和用户留存起着至关重要的作用。 乐元素的游戏团队不断推出新关卡和玩法,并持续调整线上关卡的体验和难度,以提供持续新鲜的游戏体验。其中AI在关卡制作和优化中扮演了重要角色。对于新增和调整的关卡,AI通过大量自动打关任务,确保关卡配置无错误,难度符合预期,并快速验证关卡。对于新开发的玩法,AI也通过大量自动打关任务,确保逻辑无错误。每天平均运行超过1亿次打关任务,推理次数更是超过30亿次2。 但同时,由于用户群体不断增长,以及游戏内容持续更新,乐元素AI模型推理面临着性能、成本和灵活性等方面的挑战。 性能挑战 随着游戏用户数量的增加和游戏内容的扩充,服务器需要处理大量的游戏数据和用户请求。这意味着游戏服务器需要具备足够的算力来支持游戏的顺畅运行。要提升模型推理性能,一方面可以采用具备更高算力的硬件基础设施,另一方面也可以利用将模型转化为低精度格式、采用加速指令集等方式,以更好地释放算力。 成本挑战 游戏运营成本随着用户数量和游戏内容的增加而增加,特别是当部署专用的模型服务器时。乐元素希望在满足模型推理的性能需求时,能够尽可能地降低模型推理的单位成本,从而寻找更适合推理的算力选项。 灵活性挑战 游戏服务器需要具备足够的灵活性,以适应不断变化的游戏内容和用户需求。特别是在处理不同的模型推理需求时,需要具备灵活的基础设施和工作负载切换支持,以满足游戏运营的需求。 解决方案:基于第五代英特尔®至强®可扩展处理器的腾讯云实例S8 新一代腾讯云实例S8基于全新优化虚拟化平台,提供了平衡、稳定的计算、内存和网络资源,是众多应用程序的卓越选择。其中,标准型实例采用第五代英特尔®至强®可扩展处理器,内存采用最新DDR5,默认网络优化,最高内网收发能力达4500万pps,最高内网带宽可支持120Gbps3。 腾讯云实例S8搭载的第五代英特尔®至强®可扩展处理器凭借内置加速器实现单核性能提升,能够轻松应对要求严苛的工作负 载。第五代英特尔®至强®可扩展处理器拥有更可靠的性能,更出色的能效。它在运行各种工作负载时均可实现显著的每瓦性能增益,在AI、数据中心、网络和科学计算的性能和总体拥有成本(TCO)方面亦有更出色的表现。相较上一代产品,第五代英特尔®至强®可扩展处理器可在相同功耗范围内提供更高的算力和更快的内存。此外,它与上一代产品的软件和平台兼容,因此部署新系统时可大大减少测试和验证工作。 1乐元素截止至2024年2月的内部测试结果,通过比较腾讯云S8与S6服务器得出。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。 2数据援引自乐元素内部数据。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。3https://cloud.tencent.com/document/product/213/11518#s8,2024年3月访问。 21% 整体性能提升5 42% 推理性能提升6 16% 内存速度提升7 2.7倍 三级缓存提升8 10倍 每瓦性能提升9 第五代英特尔®至强®可扩展处理器每个内核都具备AI加速功能,无需添加独立加速器,就可处理要求严苛的AI工作负载,包括对参数量多达200亿的模型进行推理和调优4。 以针对工作负载优化的性能实现业务增长和飞跃为AI加速而生的处理器以高效节能的计算助力降低成本与碳排放值得信赖的优质解决方案和安全功能 图1.第五代英特尔®至强®可扩展处理器具备更强大性能 为了进一步提升新一代腾讯云实例S8在模型推理等负载中的性能表现,乐元素与英特尔深度利用英特尔®AMX以及英特尔®oneAPI、英特尔®oneDNN来进行性能优化。英特尔®AMX作为英特尔®至强®可扩展处理器内置的加速器,可加速基于CPU的深度学习推理,避免了使用独立加速器带来的成本和复杂性。英特尔®AMX在迁移学习和再训练方面同样出色,用户无需额外添置硬件即可使模型保持最新状态。 英特尔®AMX引入了一种用于矩阵处理的新框架(包括了两个新的组件,一个二维寄存器文件,其中包含称为“tile”的寄存器,以及一组能在这些tile上操作的加速器),从而能高效地处理各类AI任务所需的大量矩阵乘法运算,提升其在训练和推理时的工作效能。例如在向量检索的过程中,如存在n个batch任务,进行相似度计算时就需要对n个输入向量x和n个数据库中向量y进 行比对,这其中的距离计算会产生大量的矩阵乘法,而英特尔®AMX能够针对这一场景实现有效加速。 图2.英特尔®AMX架构 4基于截至2023年12月英特尔的内部建模。 5与第四代英特尔®至强®处理器相比的平均性能提升,以SPECCPUrate、STREAMTriad和LINPACK的几何平均值为衡量标准。请参阅intel.com/processorclaims上的[G1]:第五代英特尔® 至强®可扩展处理器。结果可能有所差异。 6与第四代英特尔®至强®处理器相比,取得1.19倍到1.42倍的性能提升(ResNet50v1.5、BERT-Large、SSD-ResNet34、RNN-T(仅BF16)、Resnext10132x16d、MaskRCNN(仅BF16)、 DistilBERT)。请参阅intel.com/processorclaims上的[A15-A16]:第五代英特尔®至强®可扩展处理器。结果可能有所差异。 7请参阅intel.com/processorclaims上的[G12]:第五代英特尔®至强®可扩展处理器。结果可能有所差异。8请参阅intel.com/processorclaims上的[G11]:第五代英特尔®至强®可扩展处理器。结果可能有所差异。 9使用内置加速器在AI、数据和网络工作负载上进行测量,取得1.46到10.6倍的每瓦性能提升。请参阅intel.com/processorclaims上的[A19-A25]、[D1]、[D2]、[D5]和[N16]:第五代英特尔® 至强®可扩展处理器。结果可能有所差异。 通过采用英特尔®AMX技术,乐元素能够提升AI性能,满足包括以下场景在内的众多场景的需求: 个性化体验 AI可以分析玩家的行为和偏好,为每个玩家提供个性化的游戏体验。英特尔®AMX技术可以助力快速处理玩家数据,以实现快速的游戏元素调整,例如游戏难度、小动物掉落等。 升级的三消对战游戏体验 AI控制的多人游戏系统可以创造更加真实和吸引人的在线互动,例如AI控制的对手棋盘实现PVP的游戏体验。英特尔®AMX可以快速处理大量数据,以提供更加平滑和快速的在线游戏体验。 英特尔®oneDNN则提供了深度学习构建块的高度优化实现。借助这一开源、跨平台的库,深度学习应用程序和框架开发人员可以对CPU、GPU或两者使用相同的API,从而抽象出指令集和其他复杂的性能优化。在模型性能优化中,通过使用英特尔®oneDNN,操作者只需要调用包含一些后期操作的MatMul基元并传递几个参数,oneDNN即可完成其余的工作,例如配置块寄 存器文件、从内存加载数据、使用后期操作执行矩阵乘法计算、将结果存储回内存中,最后释放块寄存器文件。通过使用英特尔®oneDNN,编程人员可大大降低编程的难度。 通过上述优化措施,腾讯云能够在游戏业务中使用AI加快关卡学习及迭代速度等场景里提供满足客户性能和服务质量(QoS)需求的解决方案。 性能验证:实现显著的代际性能提升 为了验证在典型的模型推理负载中,基于第五代英特尔®至强®可扩展处理器的新一代腾讯云服务器带来的代际性能提升进行了性能测试。 自研打关模型 自研打关模型推理吞吐性能 (越高越好) 4 3.5+3.44X 3 2.5 2 1.5 1 0.5 0 +1.37X S6(FP32,AVX512)S8(FP32,AVX512) S8(BF16,AMX) 以S6性能结果为基准 乐元素自研AI打关模型用于自动打关任务,以确保关卡配置无错误,难度符合预期,并快速验证关卡。推理性能测试数据如图3所示,对比腾讯云与英特尔联合定制优化的第三代英特尔®至强®可扩展处理器,在相同的数据精度下,第五代英特尔®至强®可扩展处理器的代际性能提升1.37倍,而在启用了英特尔®AMX将模型从FP32转化为BF16后,第五代英特尔®至强®可扩展处理器的推理性能提升3.44倍10。 图3.自研打关模型推理性能测试数据 10乐元素截止至2024年2月的内部测试结果,通过比较腾讯云S8与S6服务器得出。英特尔并不控制或审计第三方数据。请您审查该内容,咨询其他来源,并确认提及数据是否准确。 消消乐新春扫龙字活动 《开心消消乐》新春扫龙字活动模型推理吞吐性能 (越高越好) 6 +5.19X 5 4 3 2 +1.19X 1 0 S6(FP32,AVX512)S8(FP32,AVX512)S8(BF16,AMX) 以S6性能结果为基准 乐元素在《开心消消乐》中引入了新春扫龙字活动,在玩家上传扫描的图片后,乐元素会通过ResNet-50模型进行图片识别,并返回识别的结果。ResNet(ResidualN