[ 智洞察 ] AI重塑ICT基础设施的能力边界筑基Token时代:以“算力×联接”全栈协同重塑AI生产力 CONTENTES/目录 卷首语 筑基Token时代:以“算力×联接”全栈协同重塑AI生产力 智洞察 总第 34 期 03AI重塑ICT基础设施的能力边界 前沿技术 从技术破局到规模应用:AI技术发展趋势预判及关键技术挑战面向AI大规模集群组网的端网融合方案探索和实践Scale-Across场景与技术方案初探构建零丢包智算底座:基于“IP+光”融合架构的广域DCI无损传输方案智算网络新范式:构建可扩展、可持续、高性能的AI基础设施AI集群的Scale-Out与Scale-Up:解构“万卡互联”与“超节点”的网络架构大模型训练的网络通信调优:从“内存语义”到“集合通信”的瓶颈突破从MoE到长上下文:模型架构演进对“算力×联接”的颠覆性挑战Scale-up网络技术概述:AI 超节点需要什么样的 Scale-up 网络探索面向Agentic AI Infra的内存驱动计算:基于CXL的沙箱镜像池与硬件KV缓存加速的组合架构大模型推理加速新范式:KV Cache技术的演进与突破AI超节点硬件架构演进趋势超节点架构:智算基础设施的效率革命与技术实现05101520242936394254596267 主办新华三集团数字化领航手机阅读 编委会成员 张弢/刘新民/杨玺 / 毕首文/孙松儿/曾富贵/乔剡 本期顾问 高书葆至顶传媒副总经理、首席技术官 本期编辑/ 徐姗姗 版权声明 本刊所有文章除注明转载外,版权归新华三所有。欢迎转载,请注明出处。 免责声明 虽然新华三试图在本资料中提供准确的信息,但不保证本资料的内容不含有技术性误差或印刷性错误,为此新华三对本资料中信息的准确性不承担任何责任。 任何意见或建议,欢迎与本刊编辑部联系。 投稿信箱 techonline@h3c.com CPO:驱动下一代Scale-up场景的核心引擎下一代智算中心XPU扩展的光解耦技术演进AI驱动下的存储技术趋势与变革:从架构到生态的全面演进RDMA在Polaris下一代存储系统的应用和优化AI时代元数据服务器设计与存储解决方案面向AI的下一代分布式存储架构设计与未来演进趋势分析智能算力调度:异构算力统一纳管与弹性调度关键技术研究面向大模型微调的AI数据工程范式:构建大模型高质量数据集面向多行业场景的全栈AI智能云架构设计与实践直面“热”挑战:两相冷板技术开启AI算力高效冷却新纪元7377838895100106111117123 AI in ALL 智原生(AI-Native)技术详解:AI重塑ICT系统的“规、建、维、优”ICT垂类模型(通信大模型)的训练与精调:构建智能体的“专业大脑”ICT智能体在“自治网络”中的能力构建和应用落地智能体驱动,园区网络迈入自智化新时代智算时代的运维革命:从被动救火到主动防御智算运维未来:Native AI与大模型融合驱动的服务器智能运维体系知识图谱中枢:让智能体从交互辅助走向执行链路智能驱动运维新范式:AI技术重塑ICT运维AI时代运维新范式:智能运维服务探索实践AI赋能安全攻防:面向漏洞治理的智能体技术框架设计与实践AI赋能安全运营:大模型驱动的智能安全运营体系构建AI in SEC驱动的语义分析与 SVM 嵌入式注入防御研究SEC for AI:新华三智能体安全护栏体系构建与研究127132139144149153159166169173177185190 筑基Token时代:以重塑AI生产力“算力×联接”全栈协同 新华三集团高级副总裁首席技术官、技术委员会主席张弢 毫无疑问,Token经济时代的序幕已经拉开,Token的生产、流转与应用水平,已演变为推动行业变革与社会进步的新型生产力。在这一进程中,模型推理需求的爆发、数据流转的激增以及算力资源分布的复杂化,使单点性能提升难以承接系统级的效率挑战。百行百业之所以亟需更优的AI基础设施,是因为AI竞争的焦点已从追求“单纯硬件规模”转向“系统级能效博弈”——企业不再满足于基础资源的简单获取,而是追求如何在可控的投入下,获得稳定、高效且能转化为业务价值的智能产出。这正是新华三作为“AI筑基者”的核心使命:为Token经济打造开放协同、澎湃高效、安全可靠的智能基石。 在此背景下,AI基础设施的底层逻辑正经历深刻变革:市场的关注重点已从单纯的GPU数量或服务器规模,延伸到算力资源能否被高效组织、稳定调度与低损耗传输。真正定义企业AI能力边界的,不再是单一芯片、单台设备或单个集群的性能,而是整个基础设施体系能否输出高质量、稳定可靠的全链路服务能力。 基于这一洞察,新华三持续践行和深化“算力×联接”的战略内涵。这里的“算力”和“联接”不仅指代计算和网络能力,更多是强调云、网、安、算、存等关键基础设施的全栈协同优化。我们认为,“AI筑基”的关键在于乘数效应——通过将极致联接、多元算力、高效存储、全面安全与智能运维深度耦合,打破传统架构中的资源孤岛。这种深度的全栈协同,让算力在云网融合中自由流动,在安全边界内高效释放,从而实现系统整体性能的指数级提升,为AI时代基础设施演进提供更清晰的坐标。 这种“全栈协同”的开放架构,是新华三兑现“最优Token性价比”承诺的底气所在。我们通过从数据准备到推理部署的全链路优化压降单位Token成本,以全周期服务保障业务稳行,直面多元化的算力资源与大模型对AI基础设施提出的刚性需求。 站在新一轮技术跃迁与产业重构的交汇点,行业需要成熟的基础设施方法论,扎实的场景落地能力,以及产业链上下游围绕真实需求的紧密协同。对此,新华三的角色清晰而坚定:以开放创新打造领先的数字化及AI解决方案,夯实“算力×联接”,践行“AI in ALL”,当好AI技术跃迁的筑基者;引领“AI for ALL”深入行业场景,做好AI应用落地的赋能者。 面对AI新纪元,新华三愿与社会各界一道,精耕务实,为时代赋智慧! AI重塑ICT基础设施的能力边界 新华三集团高级副总裁、技术委员会副主席 刘新民 过去二十多年,每一轮大的技术变革,最先被重塑的,通常都是底层基础设施。互联网改变了网络架构的组织方式,移动互联网改变了数据中心的扩张逻辑,而AI这一轮的影响更深,也更彻底。它不只是带来了新的应用,更是在从根本上改变基础设施本身的能力要求和角色边界。 业 务 验 证 , 在 确 认 可 行 性 之 后 再 进 入 生 产 阶 段 。 相 比 之下,政府类客户更聚焦于民生服务与治理效率提升,围绕具体应用场景进行定向投入。 这一差异之下,也直接反映在新华三产品策略上。新华 三 围 绕 不 同 客 户 群 体 进 行 分 层 布 局 。 面 向 高 端 算 力 需求,推出超节点产品;针对互联网客户,成立互联网与定制化事业群,加速以创新和定制化AI基础设施解决方案切入市场;而对于企业及行业客户,则提供围绕具体应用场景的解决方案。 锚定产业需求,做技术跃迁的“筑基者” 当前,算力供给依然处在紧张的状态。一方面,模型参数规模持续扩张,AI应用加速落地,社会整体接受度不断提升,带动算力需求快速上行;另一方面,核心部件供给仍然偏紧,叠加全球供应链的不确定性,高端算力资源仍 处 于 竞 争 性 分 配 阶 段 。 整 体 来 看 , 这 种 供 需 错 配 的 状态,在未来两到三年内仍将持续。 在这些表层策略之下,一个更为关键的底层逻辑是:技术壁垒的构建,依赖于长期且稳定的算力需求。 从技术研发到产品落地,本身就是长周期的过程。例如,一代网络芯片或光芯片,从设计、验证到调试,周期往往长达三到四年甚至更久。在这一过程中,必须有持续的市场需求作为支撑,否则即使技术研发成功,也可能面临落地无场景的风险。 与此同时,成本结构的含义也在发生变化。因此,尽管供给能力、应用规模与成本水平都在同步提升,但当前阶 段 的 主 要 矛 盾 , 仍 然 是 需 求 快 速 增 长 所 带 来 的 供 给 压力。不同类型客户的应对策略也呈现出明显分化。互联网企业由于资源充足,仍在进行大规模模型训练,整体呈现出“军备竞赛”特征;而互联网之外的中高端企业则更为谨慎,通常采取“先租后建”的路径,通过租用算力完成 因此,新华三将自身定位为“技术跃迁的筑基者”,这背后的逻辑则是基于产业长期需求判断的投入逻辑——在关键技术方向上持续投入、持续积累,换取下一轮产业周期的确定性优势。 深化算网融合,释放高质量、稳定的服务能力 AI in ALL:从基础设施能力向体系化能力纵深拓展 解决了“有没有算力”,下一步则是“算力能否以可预期方式稳定输出有效服务能力”。在这一逻辑之下,算力 基 础 设 施 的 评 价 标 准 也 相 应 发 生 转 变 , 由 单 一 性 能 指标,转向对系统性能力的综合衡量。 “算力×联接”的价值,最终要落到高质量、稳定的服务能力上。对新华三而言,这种能力建设不止于基础设施本身,还在持续向产品、研发、服务和行业应用延伸,沉淀为面向AI时代的体系能力。这也是新华三推进“AI in ALL”的重要方向,即推动产品、解决方案,以及研发过程全面嵌入AI。 首先体现在网络传输的演进上。传统数据中心时代,网络主要承担数据传输功能,核心任务是保障带宽、时延和链路可靠性,完成“从A到B”的数据搬运即可。到了AI时代,网络已经深度参与计算,成为影响整体效率和服务质量的重要因素。特别是在大模型训练场景中,通信算子的执行效率与网络状态紧密相关,网络的拥塞、抖动和负载分布都会直接影响训练效率与任务表现。 这一变化首先体现在内部能力建设上。新华三正推动运维能力进一步贴近真实场景,通过更靠近客户需求和运维 实 践 的 方 式 , 增 强 问 题 识 别 、 分 析 研 判 和 闭 环 优 化 能力。目前,新华三已围绕智能运维持续布局,在网络运维中 强 化 全 景 可 视 、 智 能 分 析 、 风 险 预 测 和 大 模 型 、 A IAgent结合的交互能力。 与此同时,CPU、GPU和网络通道之间也进入协同感知阶段,调度系统既要了解算力资源使用情况,也要实时掌握网络均衡状态。更复杂的系统还需要具备毫秒级动态调度能力。可以说,算力与网络正在走向深度联动。 变化也体现在产品体系中。当前,AI与基础设施的融合,既体现在支撑AI业务发展,也体现在产品智能能力的持续增强。目前,新华三AI防火墙已在策略学习、异常识别、智能检测等方面引入AI能力;CloudOS则持续推进与AI融合,强化异构算力统一纳管与智能调度能力,更好支撑模型开发部署和算力服务供给。 在 这 一 过 程 中 , 算 力 基 础 设 施 的 竞 争 重 点 发 生 了 变化。过去更容易被看见的是单点性能,如今更关键的,是能否把算力、网络和调度组织成一个稳定运转的系统,并持续输出可用的服务能力。 在运维场景中,AI能力的引入同样需要循序渐进,优先 聚 焦 状 态 感 知 、 问 题 识 别 、 趋 势 分 析 和 辅 助 决 策 等 环节,逐步提升系统智能化水平。随着相关能力不断成熟,AI也将进一步向设备侧延伸,推动基础设施从具备连接和算力能力,走向具备感知、分析与协同能力。 这也意味着,对算力基础设施衡量要看整体系统能否稳定协同运行。因此,衡量算力基础设施价值的维度正在持续扩展。时延、吞吐、利用率、成本、可运维性、安全等指标,最终都汇聚到同一个目标上,即高质量、稳定的服 务 能 力 。 对 于 大 型 算 力 中 心 而 言 , 稳 定 始 终 是 核 心 诉求。训练和推理过程中,任何一次卡顿、抖动,都可能影响业务连续性。故障率客观存在,容错和备份机制也需要在复杂环境中持续完善。 也正是在能力持续向上延伸的过程中,新华三对自身角色的定位更加明确。既要做好“筑基者”,持续夯实底层能力,推动基础设施在性能、服务和持续适配能力上不断提升;也要做好“赋能者”,深入行业场景