您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:普惠AI浪潮下腾讯云智算解决方案 - 发现报告
当前位置:首页/其他报告/报告详情/

普惠AI浪潮下腾讯云智算解决方案

2025-03-24腾讯M***
普惠AI浪潮下腾讯云智算解决方案

普惠AI浪潮下腾讯云智算解决方案 深耕高性能AI基础设施,坚定基础平台研发与生态建设 探索期 从高校、科研领域开始 技术迭代期 服务于广大企业用户,性能、稳定性快速提升 规模化应用期 产品能力全球领先,往多场景延展 202005 第一代高性能HPC计算集群 赋能智能制造、科学计算场景 202203 A10080G训练集群发布 为自动驾驶提供算力加速服务支持自研并行高性能存储 202301 全国首发16T超带宽训练集群 A800训练集群发布 202312 全新上线昇腾910B训练集群 国产化高性能训练方案 202503 腾讯云智算20全新升级 打造算存网数安一体的高性能 AI智算底座 201906 第一代高性能计算集群发布 首个百G千卡V100训练集群 202107 A100GPU训练集群发布 荣获信通院高性能计算云平台先进级服务能力认证 202211 全新升级800G星脉网络架构 202304 首发H80032T训练集群 AI超级底座,为大模型应用服务 202406 联合Gartner发布业内首个 《AI原生云建设与加速指南》白皮书 全新上线智算套件,11复刻公有云能力 自研星星海AI训练服务器自研星脉网络交换机 自研软硬件能力 算存网数安生态的高性能智算底座 深耕高性能AI基础设施,坚定基础平台研发与生态建设 探索期 从高校、科研领域开始 技术迭代期 服务于广大企业用户,性能、稳定性快速提升 规模化应用期 产品能力全球领先,往多场景延展 202005 第一代高性能HPC计算集群 赋能智能制造、科学计算场景 202203 A10080G训练集群发布 为自动驾驶提供算力加速服务支持自研并行高性能存储 202301 全国首发16T超带宽训练集群 A800训练集群发布 202312 全新上线昇腾910B训练集群 国产化高性能训练方案 202503 腾讯云智算20全新升级 打造算存网数安一体的高性能 AI智算底座 201906 第一代高性能计算集群发布 首个百G千卡V100训练集群 202107 A100GPU训练集群发布 荣获信通院高性能计算云平台先进级服务能力认证 202211 全新升级800G星脉网络架构 202304 首发H80032T训练集群 AI超级底座,为大模型应用服务 202406 联合Gartner发布业内首个 《AI原生云建设与加速指南》白皮书 全新上线智算套件,11复刻公有云能力 自研星星海AI训练服务器自研星脉网络交换机 自研软硬件能力 算存网数安生态的高性能智算底座 AIInfra 解决方案 智算平台特征:云原生、同源同构、场景驱动 云上使用AI算力本地智算IDC建设 AIGC大模型自动驾驶搜索广告推荐科学计算自然语言处理计算机视觉 远景使命 卓越性能,智算首选 AIInfra 高性能软件 训练加速 TACOTrain 星脉网络高带宽,32TRDMA网络 智能高性能网络 HCCCVMCBM 高可用,超300小时连 续训练 高性能计算集群 高加速比,性能提升30 推理加速 TACOInfer TurboFSGooseFS高并发,千卡并发读写 高性能文件存储 提升15x25x 高性能应用服务 HAI 向量数据库 10亿级向量规模, 百万级QPS 向量检索与存储 TKEqGPU GPU卡使用率提升 60 云原生调度编排 即插即用,部署时间减少95 帮助产业突破算力瓶颈加速释放AI生产力 性能领先 AIInfra 多元硬件 一云多芯软硬协同 支持七大硬件生态 多芯兼容 AIInfra TCS TCE CDZ 灵活底座 公有云管控 同源同构,向外延展 专有云管控 中心IDC 自研及第三方交换机 部署灵活 持续打造AIInfra品牌影响力,引领云智算发展新范式 Gartner生成式AI云基础设施领域新兴市场象限中位列新兴领导者象限产品性能、未来潜力维度均位列亚太厂商第一 高性能计算集群HCC:训练稳定性领先,全面拥抱大模型 启动时间短 基于腾讯云服务内外部客户经验沉淀,设备到位到开始 训练从30天缩短至1天 故障率低 星星海自研AI服务器针对AI场景定制优化,千卡单日故障率低至016 星星海自研AI服务器 故障恢复快 集群一致性检测,任务及节点异常发现恢复机制。故障恢复时间仅需5分钟。 模型 训加速框架层 练“零”改造适配 轻松接入,业务代码无侵入 框架独家优化 软硬协同,针对腾讯云硬件定制适配 算力编排层 模 型训练一键部署推理混布调度 推支持主流AI框架、训练作业模板 理 充分利用闲置训练集群资源 软件定义层 网络故障无感知 基于SDHN实现硬件故障隔离 模 5超细粒度切分 支持qGPU对单卡进行算力隔离 应 型基础设施层 用云原生一致体验 相比友商提供云上网络、存储、镜像 32TbpsRDMA网络 全面搭载腾讯自研星脉网络 星脉网络:云网端全链路感知AI业务,保障集群算力全开,为AI加速而生 模 型自研硬件 训150 练云上首发512T自研交换机、自研400G光模块; 32Tbps接入带宽,高可用组网架构, 模 100 50 0 100 50 4033 100 100 型高效集合通讯 推 理通过软硬协同的自研集合通讯,AI训练集合通讯性 50 训练通讯耗时占比 能与IB持平,成本降低67。 集合通讯带宽成本 IB商业方案IHN 模 型全局监控,高效运营 应 用360度立体监控,毫秒级调度,万卡集群训练无卡 顿,慢节点分钟级定位。 100 集群规模提升 大幅缩短网络交换对训练时长的影响 集群规模提升,支撑模型快速迭代需求 高性能存储解决方案:数据读写效率领先,打造更适合大模型的存储,ckpt写入时间缩短90 模自研通讯协议 型 训亚ms级延迟自研RDMA协议加持 练 全并行架构 模 型客户端、服务端均采用全并行架构 推实现TiBs聚合吞吐 理 Histor 自研高性能存储引擎 Checkpoint写入时间 90 模分布式元数据服务 大幅缩短Checkpoint对训练时长的影响可实现每半小时存储一次Checkpoint 50 样本读取效率 型 应千万级IOPS能力 用 样本高并发处理,overlap覆盖度100数据零等待 腾讯云数据平台,优化AI存储性能,提升数据管理效率,全面释放数据价值 TencentCloudDataPlatform 10x 训练数据读取效率 分布式Metadata架构,提供百万级IOPS,毫秒级时延,提升数据读取性能 90 模型分发时间 COS DataStore Tbps级带宽,提升海量模型分发效率,缩短模型分发时间90 GooseFSDataAccelerator Datasets TrainingDDataDseDt MetaInsigh DataCtatalog AI数 挖掘数据据价值 数据管理引擎,跨模态数据检索,可实现千 亿级数据管理,毫秒级延时数据查询 提升数据洞察能力全面释放数据价值 丰富的智算生态TACO加速套件、qGPU、Tione、知识引擎 异构计算加速软件服务 TACOKit集成腾讯自研加速技术,提升AI计算效率。 产品形态:AI推理及训练加速组件 使用方法:透明替换客户的应用框架,代码无需变更 适用场景:AI计算 痛点:AI优化技术门槛高,降本难 AI业务优化方案迭代快,优化部署改动大,门槛高 AI计算集群规模大,运营成本高,存在降本诉求 外部业务无法直接获取腾讯内部优秀实践 价值:帮助客户无感提升AI业务性能 客户A自动驾驶训练客户B推荐系统训练 一键优化AI分布式训练及推理性能 产品能力: TACOTrain与TACOInfer提供全流程加速服务 快速完成工业级训练或推理任务部署 通过自动驾驶模型编译优化及集合通讯优化,帮助客户感知训练系统性能提升25。 助力客户使单个step的训练耗时从初始的约16秒下降到042秒。性能优化40倍,成本降低高达100。 无感接入,轻量部署 极致性能,助力业务从数倍到数十倍的加速优化 全场景支持CPUGPU各版本CUDA及TensorflowPytorchOnnx 构建安全的数据流转环境数据安全保护措施 大模型应用 精调人员 里约网关: 输入输出敏感数据发现 数据动态脱敏 身份认证与权限控制 堡垒机 PAM ,SSM、 、里约网关 数据工程师 堡垒机,SSM、 PAM、里约网关 算法工程师 开发工程师 堡垒机,SSM、 PAM、里约网关 算法工程师 、 堡垒机,SSM PAM、里约网 关 实施工程师 开发工程师 最终用户 数据 采集传输 DSGC: 数据溯源KMSTSM 数据处理 数据清洗 数据筛选 数据转换 数据标注 DSGC: 分类分级风险评估风险监测运营管理CASB: 静态脱敏动态脱敏里约网关 模型训练 分布式训练模型评估 开发测试 参数调试 模型开发 CASB: 动态脱敏静态脱敏数据加密DSGC: 敏感数据分类分 级 风险评估与监测 数据防泄漏数据安全审计里约网关 模型精调 参数调整模型评估 开发测试库 CASB: 动态脱敏静态脱敏数据加密DSGC: 敏感数据分类分 级 风险评估与监测 数据防泄漏数据安全审计里约网关 模型发布 模型打包发布管理 CCP SafetensorKMS 模型推理 数据输出 数据输入 DSGC: 分类分级 风险评估 用户行为监测 开发工程师测试工程师 数据库安全审计数据库防火墙 数据访问 数据访问 数据访问 同步仿真数据 CASB:静态脱敏数据库安全审计 数据输入进行精调 数据库防火墙数据库安全审计 数据访问 存储层 DSGC: 数据溯源 数据防泄漏 生产数据存储 mySQLTDSQLCOSVDB 机密计算平台 DSGC: 数据溯源 数据防泄漏 客户侧行业数据 推理数据存储 本地部署场景:赋能行业数智化转型,多形态分布式部署,让拥抱AI更简单 腾讯云智算套件 专有云TCE底座 分布式云专有云私有云 公有云 中心 腾讯云统一管控 边缘 EdgeZone 云原生TCS底座 轻量灵活 underlay网络 行业云私有云 多租户隔离 VPC网络 全栈云产品 分布式云 CDCCDZ 公有云延伸 客户IDC机房部署 与云上一致体验 公有云能力 11完全输送 CDC 完整运维运营能力 蕴含公有云大规模稳定运营的最佳实践和产品设计 支持行业云,为行业赋能 健全的计量计费、租户账号、资源池等管理能力,为行业客户保价护航 AvailabilityZone 安全合规、开放兼容 全栈智能 从操作系统到硬件全面自主可控 软件开放、硬件开放 一云多算力,覆盖智算、通算、超算等所需的全栈解决方案 开箱即用的推理服务:高性能应用服务HAI 快速部署 丰富模板,极速创建 应用模板 一键部署 门槛更低 丰富的算力连接方式 可视化AI调试 云端IDE 一站式 丰富的开发管理工具 Notebook 教育版 相关产品:高性能应用服务HAI AIinfra智算新时代腾讯云助力产业AI加速 扫码获取云智算方案内容及更多产业互联网干货 谢谢观看