人工智能原生云构建与加速核心能力指南 版权声明 本报告归腾讯云(北京)有限公司所有,并受法律保护。对本报告中的文本或观点进行任何形式的复制、摘录或其他使用,必须注明“来源:腾讯云(北京)有限公司”。腾讯云保留对任何违反本通知的行为采取法律行动的权利。 目录 背景 从AI云到原生AI云:云服务的比较分析平台能力需求 面对原生AI云的挑战AI加速而生:腾讯云(AI原生)全景分析云平台架构能力 l基础设施层加速计算 网络和边缘加速存储加速 l模型库 l工程工具层 部署和微调加速内容质量管理 数据处理效率提升发展提升 l应用层 l全栈式安全解决方案结论 关于腾讯云 参考材料 背景 在人工智能时代,我们正处于一场非凡的技术革命之中。这一深刻的转变,以其动态的势头和重大影响,正在重塑全球商业格局和社会进步。随着人工智能创新的快速发展,它们正在渗透到决策、创新和价值创造的各个领域,成为社会进步的关键驱动力。跨国公司、初创企业、成熟的研究中心和个别先驱者alike都不可避免地被这场由人工智能驱动的变革浪潮所席卷。 全球科技格局随着在大型语言模型、语音模型和视频模型等领域的突破而跳动着创新的脉搏,这些突破不断推动人工智能技术的边界。这种竞争动力不仅激发出新想法,还推动着各行各业持续的能量波。人工智能技术的演化和集成使得技术提供商能够完善和提升他们的产品,加强他们的竞争地位。例如,独立软件供应商(ISVs)越来越多地将人工智能功能融入到他们的产品中,以在这个变革时代确立自己的地位。正如Gartner在《CTO的生成式人工智能技术景观指南》中预测的那样:“到2026年,超过70的独立软件供应商 (ISVs)将在其企业应用中嵌入生成式人工智能(GenAI)功能,这比目前的不到1有大幅增加。” 生成式人工智能已成为商业领域的颠覆性力量,吸引了全球各行各业高管们的关注。其关键优势在于自动化决策过程和内容创作,通过提高效率和增加价值来革新商业运营。正如Gartner在《CTO的生成式人工智能技术景观指南》中所预测:“到2026年,超过80的企业将使用生成式AIAPI、模型,或在其生产环境中部署了生成式AI赋能的应用程序,这一比例将从今天的不到5显著增加。” 所有这些变化标志着人工智能原生时代的强劲开端。在这个阶段,大型语言模型(LLMs )将作为基础技术,推动现有应用的显著转型,并催生全新的应用类别。Copilot和AIAgent的引入是这一转变的强烈证据。 在不久的将来,托管在云上的大多数应用程序将平稳过渡到AI原生应用。 AI原生应用依赖于AI原生云,这促使云服务持续进化以满足AI原生时代的需求。下一代AI原生云解决方案将赋予IT领导者精细调整在这个转型时代价值、成本和风险之间微妙平衡的能力,使他们能够自信地与当前趋势保持一致并引领行业进步。 从人工智能云到AI原生云:云平台能力要求比较分析 我们激动地见证了从AI云到AI原生云的转变,这标志着云计算功能的重大飞跃。新兴的AI原生云不仅仅是一个技术进步,它还成为了推动用户业务转型和创造力的核心力量。AI原生云无缝地将AI技术嵌入到云计算服务的各个方面,为用户提供更智能和自动化的服务。此外,AI原生云优先考虑开放性和生态系统培养。通过提供强大的API和SDK,它为第三方开发者营造了一个动态的环境,以促进尖端AI原生服务和应用的创造。 图1:从云AI到AI原生云的转变 以下概述了增强能力的必要性: 1涵盖性以实现更广泛的参与:在过去,人工智能技术仅限于特定的行业和用户群体。然而,随着AI原生技术的出现,通过大型语言模型(LLMs)解锁了广泛的技能,使不同行业中的用户广泛参与成为可能。云平台必须具备可扩展的架构,以有效地适应这一多元化的参与者格局。建立一个稳健的框架对于满足各种规模和需求的用户至关重要,确保云生态系统中的每位用户都能获得定制的解决方案。 2精通训练大型语言模型:此前,人工智能模型的参数量通常在数亿范围内。随着AI原生时代的到来,模型参数量发生了巨量增长,达到了数十亿、数百亿,甚至万亿级别。云平台必须具备管理这种前所未有的训练任务规模的能力。对于它们来说,不断优化计算资源以满足日益增长的计算需求,同时保持最佳效率和成本效益,至关重要。 3多模态支持。过去,用户主要利用单一模态模型,如语言模型、语音模型和视频模型 。在AI原生时代,整合并理解多种数据模态的多模态模型将增强功能并应用于更广泛的应用场景。 4加强多模态检索功能:在过去,用户主要依赖于结构化数据。然而,随着嵌入技术、多模态特性和AI原生时代向量化的出现,文档、音频、图像和视频等非结构化数据现在正被有效利用。云平台必须提供强大的跨模态检索能力,以支持这一数据利用方式的转变。 5简化集群调度:在AI原生时代,随着模型参数激增,单机训练显得不足。云平台必须支持集群调度,以容纳数千甚至数万个GPU来满足大型语言模型(LLM)训练的基本需求 。集群调度系统应展现出智能和效率,自动优化资源分配,减少等待时间,并提高整体训练效率。 6授权发展提升:在AI10阶段,开发者需要具备对云服务和AI的坚实理解,才能有效构建、训练和部署AI应用,通常需要整合各种工具和平台。然而,在AI原生时代,AI开发的门槛显著降低。开发者现在可以利用简洁、高质量的代码和工具迅速创建和部署AI应用。此外,云服务提供商提供了多样化的预训练模型和可定制模型选择,进一步简化了AI应用的开发流程。这不仅极大地提升了开发效率,还极大地减少了代码量,使得开发者能够更多地专注于软件产品设计。 7在本地部署中的适应性:在目前的AI原生环境中,用户对安全和数据隐私的关注程度达到前所未有的水平。随着AI基础设施相关成本的不断上升,企业越来越重视内部基础设施提供的规模经济和运营效率。因此,将AI解决方案本地部署以促进LLMs的培训和推理已成为越来越多的用户的优选方法。尽管传统用户通常会管理计算资源并部署AI应用程序。 在通用云计算平台上,集群配置和网络等关键领域对可扩展性和性能要求在AI原生时代已经变得极其严格。这要求专为AI场景设计专业化计算、网络和存储基础设施 ,需要硬件和软件紧密合作,以实现满足用户对高性能和可靠性需求本地部署。 8确保内容质量和安全:在人工智能原生时代,云平台不仅要满足数据、应用程序和网络安全传统标准,还要应对内容质量保证和安全性不断变化挑战。面对可能含有敏感数据或侵犯知识产权内容,用户依赖云平台提供强大“基线策略”来防范此类风险。 在上述观点基础上,在原生AI时代,一个具备端到端能力强大云平台应运而生,该平台涵盖了基础设施、模型、工程工具、应用程序以及AI信任和安全五大关键组件,成为用户熟练驾驭这一变革时代技术格局首选。 面对原生AI云挑战 随着人工智能原生时代全面展开,云计算技术发展充满挑战。新兴人工智能原生云必须持续创新,以应对以下七个关键技术挑战: 1自动部署:随着AI原生生态系统不断发展,云平台必须优先考虑出色用户友好性,以降低入门门槛。克服关键技术挑战,如简化标准和AI环境部署流程,以及通过简单点击实现无缝GPU驱动程序安装,平台必须克服关键任务。 2自动化操作:用户努力优化GPU计算能力,尤其在由数千甚至数万台GPU组成集群中,效率至关重要。下一代云平台必须具备智能自动化功能,以实现集群操作流畅性 ,包括高效调度和容错机制,以保持稳定性并最大化大规模部署计算能力。 3提升集群性能:在不断发展人工智能原生云环境中,提高存储和网络传输速度,同时最小化计算过程中闲置时间至关重要。云服务必须提升存储和网络传输速率,以最小化 计算延迟显著。努力实现零数据包丢失、提升承载能力,并达到2Tbps集群吞吐量 ,代表着性能优化顶峰。 向量化技术:向量化技术将非结构化和结构化数据转换为向量表示,促进有效相似度检索,并为训练大型语言模型(LLMs)提供稳健数据基础。该技术巧妙地存储和检索以向量格式表示模型训练参数,加强大规模并行计算,并加速模型训练流程。此外,向量化技术成为用户解决通过RAG部署生成式人工智能过程时遇到诸如幻觉、知识停滞和数据安全问题等挑战关键解决方案。 5模型微调:在AI原生云范畴内,LLM(大型语言模型)微调对于最大化其可用性至关重要。考虑通过模型优化进行微调人工智能编程助手,它能够生成符合用户偏好优质代码。然而,模型微调一项复杂任务,需要仔细关注数据质量、审慎选择LLM、保持泛化能力,以及始终坚持伦理和监管标准。 6兼容性与可扩展性:即将推出AI原生云,旨在适应涵盖公共云和本地部署多元化部署策略,将面临一系列技术挑战。首先,该平台必须解决兼容性问题,确保在多样化部署环境中实现一致性能和用户体验。可扩展性成为多中心部署另一个关键方面。随着用户企业发展和市场需求变化,AI原生云应具备无缝扩展灵活性,以满足不断变化 计算需求。 7减少幻觉:在AI原生时代,生成式AI输出精确性至关重要。下一代云必须通过利用高级调校工具链和综合RAG解决方案,巧妙地减轻广泛LLM对话中幻觉,从而保障生成内容准确性和可靠性。 面对新时代挑战,AI原生云出现不仅象征着技术升级,也展现了创新思维和对卓越追求。唯有持续推动技术边界,云平台才能在AI原生趋势中保持领先地位,为用户提供强有力支持和丰富增长机遇。 图2:AI20进步 人工智能加速而生:腾讯云(AI原生云)平台架构能力全景分析 腾讯云向用户提供由生成式AI驱动先进云架构,涵盖五大关键能力:AI基础设施、模型与框架、AI工程、AI应用和安全。下一代云计算助力全面加速大规模语言模型(LLM)训练、推理和应用部署,释放各个行业中多样化MaaS效率,并加速AI原生应用程序采用。 图3:腾讯云(AI原生云)平台架构能力 基础设施层 基础设施层包含三个关键能力:计算加速、网络和边缘加速以及存储加速。这些特性旨在弥补计算、存储和网络性能上不足,共同构建起一个坚固可靠平台基础。 加速计算 人工智能已经进入了一个快速发展阶段,尤其在竞争激烈生成式AI领域。为了抓住机遇,用户需要迅速迭代他们语言模型(LLMs)。这推动了大规模、高性能异构计算能力需求激增,将焦点从以CPU为中心计算范式转变为以GPU为中心计算范式。 此外,在生成式AI时代,模型参数已达到万亿级别,这在训练和推理过程中都带来了前所未有可扩展性、性能、容错性和成本效率方面挑战。 首先,用户对计算错误有极低容忍度,因为训练中断需要从头开始。计算和时间成本双重压力使得任何延迟都无法接受。 其次,每个阶段预训练、后训练、微调和推理都要求 GPU计算能力,为用户创造了一个持续且具有挑战性环境。在维护模型性能和产品体验同时,用户还必须确保自身可持续性。寻找成本效益高异构计算能力以最大化投资回报率他们面临关键问题。 腾讯云异构计算 用户痛点 培训 效率:在快速演变生成式人工智能领域中,效率和时间对商业成功至关重要。客户需要大幅减少大型语言模型(LLM)训练时间,从而产生了对高性能计算指数级需求。 稳定性:培训必须不间断;任何中断都意味着从头开始,这不可接受且无法容忍。 推断 延迟:人工智能推理需要用户请求前向传播,这需要提供高吞吐量和低延迟计算支持以维持无缝用户体验。 费用:与训练需求大规模GPU算力不同,推理需要成本效益计算解决方案。 产品解决方案 在基础设施层,腾讯云异构计算作为一个关键工具,通过其多架构云平台提供强大AI支持。通过无缝整合和优化软硬件,它使得并行计算能力更强大,从而显著提升大型语言模型(LLMs)训练和推理过程。腾讯云提供包括高性能计算集群(HCC20)、云裸金属(CBM)、云服务器、HAI、容器和云函数等多种实例选择,提供了一个多样化且全球领先实例选项系列。 图4:腾讯云产品解决方案 优势 领先规模腾讯云管理着超过15亿个计算核心,提供行业领先16EFLOPS(16x1018FLOPS)基于人工智能计算能力。