您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[腾讯]:国产智算云方案与实践 - 发现报告
当前位置:首页/其他报告/报告详情/

国产智算云方案与实践

2024-08-19腾讯王***
国产智算云方案与实践

国产智算云方案与实践 方天戟 腾讯专有云首席架构师 个人简介 方天戟 •腾讯专有云专家工程师,《云鉴》编写组成员 •18年行业经验,曾服务于华为、新华三、Juniper 等业界著名企业 •为宝马、航天科技、中国建筑、新加坡HBOAsia 等业界头部客户设计过企业上云整体方案并落地; 目录 趋势与挑战 02 腾讯国产智算云解决方案 03 最佳实践案例 全球:大模型时代,企业IT建设重新对焦 Cloud-Based 传统应用虚拟化 物理硬件 LUN PM PM VM VM VM 基础设施服务IaaS 数据库/中间件 应用 Cloud-Ready 业务统一托管在PaaS层 物理硬件 LUN PM PM VM VM VM 基础设施服务IaaS 数据库/中间件 应用 Cloud-Native 开发运维融合,敏捷精益极致 标准化基础设施服务IaaS AI智算硬件 数据库/中间件 标准化基础资源的应用 基于 IOE PaaS的能力发展·服务规模化·运维自动化容器化·微服务化·AI算力调度能力 国内:复杂国际形势加速国产替代,平台开放性面对新挑战 应用中间件 操作系统 信息技术融合创新生态 GPU 网络设备 CPU TDSQL,达梦,东方通……TencentOS,麒麟,统信UOS……寒武纪,海光,华为,摩尔线程…… 华为,紫光恒越,迈普,ZTE,盛科……海光,鲲鹏,飞腾…… 信息技术融合创新生态具有全技术栈属性,PaaS与操作系统作为基础平台,需要满足最严苛的兼容性需求 企业部署自主创新的国产智算云平台已成为必然趋势 企业云1.0 虚拟化·FCSAN·大二层 企业云2.0 OpenStack·SDS·硬件SDN 2014:试探 企业云3.0 自研云管控·计算·存储·网络容器·中间件·微服务· 数据库·大数据·区块链 2018:成熟 2024:信息技术融合创新+智算 2008:萌芽 我们需要什么样的国产云原生平台? 目录 01 趋势与挑战 腾讯国产智算云解决方案 03 最佳实践案例 自主创新,面向应用,开放兼容的国产智算云平台 Technology 技术引领 •全栈IaaS+PaaS+DaaS+TBaaS平台 •持续技术创新,促进开源共建 •业界领先的性能、高可用与安全能力 Ecosystem 生态共赢 •支撑应用生态,帮助企业数字化转型 •融合信息技术融合创新生态,建设自主创新平台 •赋能产业生态,实现对外运营服务 •软件硬件协同,性能与安全性领先 •云端边缘协同,实现企业数字化治理 •研发运维协同,建设敏捷组织与流程 腾讯国产智算云方案总体架构 平台应用接口TCE控制台云API资源编排CAMRBAC TCE国产 PaaS平台 TSFCKafkaTDMQRIODTF TDSQLCRedisTBaseTCCLCES TCE国产智算底座 CVMTKE+qGPUHCC+THPCVPC运维平台 BMSCBSCFSCOS云监控 TurboFSSDN+NFV星脉+RDMA运营平台云安全 控制集群 TencentOSServer 鲲鹏/飞腾/ 海光 Intel/ARM Intel/ARM 业务集群 TencentOSServer … 海光/寒武纪 /昇腾… 鲲鹏/飞腾/ 海光 NVidia Intel/ARM 腾讯国产智算云方案部署架构 DNS/GSLB 负载均衡TGW/STGW 负载均衡TGW/STGW 主Region 主AZ 备AZ OAZ 全局服务 全局服务 地域级服务 DCI 地域级服务 DCI AZ级服务 AZ级服务 AZ级服务 备Region 主AZ 备AZ OAZ 全局服务 地域级服务DCI地域级服务DCI AZ级服务 AZ级服务 AZ级服务 DCI 技术引领:服务十亿级用户的技术下沉 公有云 腾讯云统一管控 中心边缘 EdgeZone 公有云能力 1:1完全输送 私有云腾讯云TCE 独立管控 AvailabilityZone CDC AvailabilityZone1 AvailabilityZone2 价值:将公有云全栈能力1:1下沉到私有云中,私有云发展的新趋势 充分复用公有云能力,和公有云统一架构、统一代码,覆盖计算、存储、网络、安全、数据库、中间件、云原生等近百个产品,可以在安全合规的前提下,满足政府/企业私有环境中自用及行业云等多种需求 提供运营、运维、高可用等管理端能力,比公有云拥有更丰富的可运营、可运维性,同时提供完善的文档、工具助力客户 技术引领:全栈自主创新,引领行业标准 40+项专利,20+软著主导开源社区,连续五年 贡献排行TOP10 .5路由方法及系统 .2集群间路由实现方法及系统 .4一种负载均衡方法和装置 .3一种获取进程信息的方法及装置 9一种存储日志数据的方法及日志数据存储系统 .0自适应负载均衡实现方法和接入服务器 .0一种服务访问方法及装置 .8一种数据冷备方法及装置 .6数据存取方法及装置 .5数据存储方法和系统 .3一种操作系统的预取启动方法和装置 .7数据服务器、数据存取系统及数据存取方法 .7基于云存储的资源共享方法及系统 .X一种登录类Unix虚拟容器的方法、装置和系统 .0分布式文件系统对多个副本数据进行处理的方法及该系统 .7在集群中调度运行分布式计算框架的方法和系统 .4一种共享内存的内存块释放方法及设备 CN200710307132.9分布式系统、分布式业务处理方法及相关装置CN200810198930.7测量网络节点邻近度的方法CN201010287136.7一种对多台计算机进行配置的系统和方法CN201110051467 CN201110078347CN201310300815.7一 CN20CN20CN20CN20CN20CN20CN20CN20CN20CN20CN20CN20CN20CN20 处理键值的方法和装置中慢 储方方法 、装器及 CN201110064188CN201310014460.5跨域数据传输的通信链路分配及跨域数据传输方法和系统 1110150655CN201410025295.8一种检测 11102 11104 12100 12100 12103 12102 12101 12103 12103 12103 12103 12103 12104 速用户的方法、装置和系统法 和装置及宿 种在哈希表数据库中 0498.CN201410525002.2强一致性分布式 05675CN201610101342.1多进程设备的网 58358 99698 36368 96814 49308 09960 16966 45405 81299 70666 80937 、装置及系统系统 置及存 计算机主机及存储存储介质 、装置置及存质及电 、存储云平台统 装置存储介 网络视频直播 储介质 可读存储介质介质 质 和可读存储介质储介质 子装置 介质和电子装置的物理服务器 质及电子设备 CN201810963234.4一种多机型设备复用方CN201610676573.5模拟处理器的升级方法CN201910974237.2一种CPU调整方法、服 CN201610548058.9一种虚拟机热迁移的方CN201910521792.X一种处理器的调度方法CN201910707639.6超时检测方法、装置、CN201910570004.6数据处理方法、装置和CN201810001805.6控制执行虚拟机热迁移CN201810963234.4一种多机型设备复用方CN201810355606.5网络配置方法和装置、CN201810247693.2确定服务器状态的方法CN201710072256.7云平台路由数据的处理CN201610552915.2云端数据组播方法、装CN201910431422.7一种数据传输的方法、CN202010725171.6虚拟资源的转移方法和 数据存络连接 、装置设备及存储介的方法法、装存储介 、装置方法和置和系系统及装置、 务法 法及 等保完善,密评领先软件成熟度获得全球认可 全面协同:创新的软硬件协同技术提升云平台性能与安全性 针对硬件的优化 优化NUMA分配,提升国产平台计算与网络性能 独创qGPU技术,实现高性能计算灵活调度 大规模应用MCARecovery技术,提升40%可靠性 操作系统内核级深度优化 针对内核底层机制,特定产品提升3倍性能 修改内核实现离在线混部,提升100%集群利用率 虚拟机批量迁移,运维效率提升200% 引入专用硬件,优化关键路径 专用密码机,云平台应用国产密码算法,安全加固 自研智能网卡实现系统资源利用率的进一步提升 自研星星海服务器,现网部署10万+ 全面协同:云与边缘协同,数字化直达末梢 公有云 云平台统一管控 总部云 TCE/TCS 同城双活 IP可达 IP可达 IP可达 边缘工厂(境内) CDC/TCSEdge 本地无需运维 边缘工厂(海外) CDC/TCSEdge 云与边缘计算的融合协同,打通中枢与末梢,避免信息扭曲失真 生态共赢:真一云多芯,引领信息技术融合创新生态长期演进 控制台、云API 镜像 中间件 容器 安全 计算 存储 网络 云数据库 集群内包括X86和ARM设备,用户选择架构创建实例 X86网关/CLB集群ARM网关/CLB集群 提供X86和ARM存储池供用户选择 提供X86和ARM多种机型供用户选择 支持X86和ARM架构的实例、agent 支持用户创建X86或ARM架构的集群 提供X86和ARM架构的队列集群、TSF集群、API服务等供用户选择 银河麒麟 UOS TencentOS 鲲鹏芯片服务器 飞腾芯片服务器 海光芯片服务器 优势 极致的一云多芯能力,全类云产品支持集群级一云多芯支持客户多种多样的建设需求,存量改造、新建扩容皆可 提供全栈信息技术融合创新云服务,数十款云服务均进入信息技术融合创新图谱 全面兼容信息技术融合创新芯片、服务器、操作系统;业界其他信息技术融合创新中间件、数据库等软件也可运行在TCE 价值 全类云产品支持一云多芯帮助客户大大降低信息技术融合创新建设成本、缩短建设周期 开放兼容的一云多芯能力,支持客户选择多设备供应商、多技术路线建设信息技术融合创新环境 生态共赢:开放兼容全球软件生态 第三方云管平台 被集成 标签 配额 白名单 计量 计费 云API 消息 审计 权限 账号 集成 腾讯云产品 ... CBS CVM 第三方云产品 ... 数据库 优势 被集成能力 开放全量云产品的云API 提供标准的产品化的API能力 集成能力 提供成熟规范的第三方产品集成方案和流程 价值 统一入口管理&使用云产品 对于管理人员,可在运营端统一管理腾讯云产品和第三方产品对于云用户,可在租户端统一入口访问腾讯云产品和第三方产品 统一云产品使用体验 对于云用户,在使用第三方产品时,拥有与腾讯云产品一致的使用体验 目录 01 趋势与挑战 02 腾讯国产智算云解决方案 最佳实践案例 最佳实践案例(1)某全国垂直系统 项目情况: 某全国垂直系统在全国建设金x四期配套工程——FP云,决策基于ARM平台建设,在总局建设双中心,每省建设省中心; 交付成果: •已交付总局及全国各省级单位(不含港、澳、台)共70+个AZ; •共计20000+节点,包括飞腾、海光和鲲鹏三种处理器架构; •全国首个飞腾S5000C作为云生产节点的局点; •首创1周交付完3个AZ的纪录; 最佳实践案例(2)南网广东调度云 客户简介/项目背景解决方案 客户:南方电网属国务院国有资产监督管理委员会监管的中央企业,是关系国家安全和国民经济命脉的特大型国有重点骨干企业。供电区域为广东、广西、云南、贵州、海南五省及港澳地区,负责投资、建设和经营管理南方区域电网,经营相关的输配电业务和联网工程;从事电力购销业务,负责电力交易与调度。 背景:南网调度业务逐步向云边协