美的简介 美的集团:3000+亿ToC(智能家居),1000+亿ToB(楼宇科技、工业技术、机器人与自动化,美的医疗、安得物流)。根据美国商业专利数据库(IFIClaims),美的在中国企业排行第一,世界排行第四。世界最大家电公司。2024年,美的集团位列《财富》世界500强第246位,BrandFinance全球最有价值科技品牌100强第40位。 个人简介: ▪个人简介:欧洲科学院院士、IEEEFellow、IETFellow、ACM杰出科学家 https://engineering.washu.edu/faculty/Umar-Iqbal.html https://web.cs.ucdavis.edu/~zubair/ ▪智能运维▪程序分析▪混沌工程 https://csc.ncsu.edu/people/mshahza/ ▪基础设施▪信息安全▪智能办公 3 AI的基本功是数字化,数字化的基本功是底座 ▪自搭难搞好 ─技术旧:停留在传统虚拟化+集中式IT架构时代,与现代云原生底座代差巨大 ●资源没有池化:基础架构只是保管员,资源交付3-5个月(采购-上架-安装软件)。 ●服务没有云化:传统虚拟化管理的是“虚拟机”,而不是“应用”;只解决资源供给问题,而不解决服务供给问题(例如数据库、消息队列、缓存等服务),每个应用自己搭建这些服务。 ●技术没有体系:计算资源虚拟化仅仅实现服务器切分、只解决“一台服务器分给多个人用”的基础问题。公有云技术体系是全栈全能力的虚拟化与平台化,覆盖计算、存储、网络、中间件、数据库、调度、监控、自动化运维、弹性伸缩、容灾等全链条,是一套完整标准化操作系统级底座。 ●稳定没有保障:没有分布式调度、容器化、微服务编排、流量治理、动态扩缩容等现代底座核心能力,一旦遇到业务波动、流量峰值、硬件故障,没有自愈迁移能力,就会发生故障,业务中断。大故障全是架构和体系问题! ─产品杂:各种商用(无法联动)+各种开源(能力差不是企业版,没有维保没有兜底保障,出事自己修bug─安全弱:安全是体系问题,系统能力低则安全差,网络能力低则安全差。─效率低:重复建设,每个业务软件团队需要自己搭建和运维中间件、数据库等─浪费多:容器的资源利用率是虚拟化的2-4倍 ▪多云难驾驭 ─原因多:横向部门原因,纵向历史原因,业务出海原因,财务降本需求(单云绑定难议价),业务稳定需求 ─适配难:公有云不兼容,业务软件对公有云的适配改造量大、人力成本高、时间周期长、业务响应慢─联动难:云孤岛问题难解决,业务孤岛无联动,无法实现多云多活(接入层、中间件层、数据层等底层能力)─运维难:不同云不同配置不同参数,参数越来越多,性能调优难 解决方案:多云统一数字化底座 ▪架构 ▪价值 ─本地技术升级:本地IDC从旧虚拟化技术升级成公有云技术,中间件数据库服务化,运维白屏化自动化─云下云上统一,多云之间统一:业务应用软件无缝迁移零改造,云计算的软硬件解耦(下一代云计算)●数字化应用系统:一次开发,全球部署─资源统一调度:全球一张网,全球一朵云,一个企业一朵云,全部云上云下资源统一调度,操作系统级别纳管多朵公有云资源+多个数据中心资源,彻底消除云孤岛,屏蔽公有云差异,与CMP有本质不同 ─海外:业务快速上线─双活:自己数据中心与公有云做双活─免迁:服务器涨价:自己数据中心与公有云做成一个集群,应用系统无感地扩容到公有云 AI算力平台 AI算力平台:资源利用率问题 问题 根因 ⚫无AI算力虚拟化,GPU资源无法细粒度分配⚫无动态分配策略,GPU资源无法随负载动态分配⚫无统一调度策略,GPU资源无法随要求调度到合适的服务器 ⚫有些AI开发测试和推理服务需要GPU资源少,但仍占用整块 GPU卡 ⚫推理和训练的资源使用模式存在潮汐现象,大部分时间GPU资 源闲置 AI算力平台架构 AI算力平台提供跨云多集群管理、GPU算力调度、作业任务部署、队列资源分配、持续发布、统一资源管理、AI中间件、自动智能化运维、运营能力等,助力企业AIGC的大模型与知识问答算法训练推理,通过AIGC为企业赋能和降本增效。 多种资源利用率方案 ⚫固定模式:声明多少用多少,适合资源使用模式固定的业务模型 ⚫装箱调度:优先占满一个GPU或节点⚫优点:省电省钱,因为空箱可以进入电源保护模式) ⚫争抢模式:竞争资源,适合资源使用模型动态变化,服务品质要求不高的业务模型 ⚫细粒度虚拟化:vGPU支持1%精度的算力和1MiB级显存的资源申请 ⚫分散调度:尽量打散到不同GPU或节点⚫优点:速度最快,因为资源使用最多 ⚫固定+争抢模式:适合资源使用模型动态变化,服务品质要求高的业务模型 多种调度方法 灵活的动态分配策略 稳定性保障 故障发现 多租户管理 ⚫资源利用率高:通过池化动态分配资源,既能保障租户的资源使用,也能提升资源利用率;租户内可以细分多个队列,队列间动态分配资源,进一步提升租户内资源利用率⚫运维效率高:多个租户使用一个管理平台,共享算力集群 ⚫资源利用率低:缺少多租户资源共享能力,无法实现资源充分利用,必须满足各租户峰值要求 ⚫运维效率低:缺少统一管理能力,需要为各个租户独立维护算力集群 精细化计量 ⚫多维度查看:支持按照部门、应用系统等多个维度查看GPU、内存等指标和GPU虚拟化、GPU整卡等资源用量⚫报表统计:对于已使用的资源用量,可以通过统计报表按照某个时间段或指定时间进行导出报表,可以查看GPU卡/时用量统计⚫资源大盘:提供资源大盘如机器分布、GPU卡和系统统计、GPU利用率、显存用量等的大盘展示 推训混部和动态扩缩容 ⚫推训混部:构建AI场景下的推理和训练混合部署能力,白天推理为主,晚上训练为主,削峰填谷,提升资源利用率⚫动态扩缩容:增强推理引擎(vLLM,SGLang),暴露内部指标,实现动态扩缩容,精细化使用GPU资源⚫无损更新:基于智能网关和推理引擎(vLLM,SGLang),实现扩缩容过程中的流量无损 公有云GPU资源的快速交付 公有云资源管理痛点: ⚫快速扩容 感知流量和资源情况,分钟级别资源扩容和缩容 ⚫全自动化流程 全过程无需人工介入,提供多种策略自动执行 ⚫流量无损 支持多集群网关、多集群服务路由通信,一个网关实例实现多集群多可用区高可用,降低时延,切换业务无流量损失 统一调度自己数据中心GPU和公有云GPU ⚫公有云统一调度:提供公有云和数据中心GPU资源的统一调度,包括弹性优先级、可以优先调度自己数据中心,其次调度公有云⚫全球一张网:支持公有云和数据中心同一网络,容器与节点同一网络,让工作负载可以自由迁移,并具备高吞吐,低延迟能力⚫Spot模式:支持公有云spot模式资源,最大程度节约成本 应用管理平台:AI网关 缺少AI网关的痛点:1.API对接复杂:每个应用都直接根据特定模型提供商的SDK 1.提供模型无关的抽象层:企业可以随时切换、测试或组合使用不同的AI模型,而无需修改任何下游应用的代码2.实现统一治理,消除重复建设:权限管控、安全审计、额度控制、流量限制等通用治理能力,只需在网关层面实现一次。所有应用自动继承这些能力,无需再独立开发3.增强安全性,降低管理风险:所有后端AI模型的API密钥都由网关集中、安全地保管。应用本身无需接触任何密钥,通过内部认证即可调用 和API规范进行编码无法平滑迁移2.开发接入重复:针对不同AI模型的独立接入,导致了权限管控、成本审计、安全与监控等一系列通用能力的重复开发3.凭证管理混乱,安全风险高:应用都需要自己保存和管理各个AI模型的API密钥。这些密钥散落在不同的代码仓库、配置文件和服务器环境中存在安全风险 AI可观测 权限管控 全栈监控平台 企业常见监控现状 现状: 系统监控(服务器、虚拟机、容器、中间件):Prometheus 日志监控:开源ELK;商业Splunk,日志易等 端侧监控:Bugly,Firebase,火山引擎,Crashlytics, Sentry等 应用监控:开源(Skywalking、Jeager、Zippkin)商业(Dynatrace,听云) 硬件监控、网络监控:Zabbix,Nagios等 紧急故障处理 问题: 效率问题 能力问题 成本问题 •故障定位慢:需要在多个平台间跳转,人工关联和分析跨平台数据•配置部署慢:手工配置数据采集,告警策略,无自动化能力•告警效率低:告警策略单一,通知能力单一,重复告警率高 •无全栈监控:各平台数据存储分散,无关联分析,无全栈视图•无多云监控:不支持多云异构网络和存储环境下的部署•无编程能力:不支持用户可编程的能力扩展 •运维难度大:遇到监控Bug和使用问题要研究开源代码,升级困难•稳定风险大:开源系统架构非高可用高可靠 全栈监控架构 端到端全链路监控 链路数据自动采集:采用统一的数据模型,自动采集端到端各节点的调用数据应用拓扑自动发现:根据采集的数据进行集成分析,自动建立调用拓扑关系调用链路自动集成:根据调用信息,快速定位性能瓶颈和故障根源 统计信息展示:基于慢SQL日志展示调用量,时延等统计信息日志信息展示:提供慢SQL日志详情信息,精准定位慢SQL语句业务场景展示:关联慢SQL业务场景,快速定位慢SQL应用 慢SQL应用信息 应用异常采集:应用异常的自动采集和多种分类方式的统计应用异常告警:应用异常的自动告警,自定义告警规则应用异常排行:基于应用系统和组织结构层级的应用异常排行 大数据开发平台 架构 数据治理–元数据和血缘 痛点:1.元数据采集不全:元数据分散在各系统,未进行统一采集2.元数据管理分散:缺乏统一管理,数据理解成本高3.血缘关系缺失:没有数据血缘,无法快速定位数据故障 方案1.全面元数据采集:支持8种数据源统一采集,覆盖多样化元数据2.统一元数据管理:整合业务和技术元数据,提升可理解性3.血缘关系自动生成:支持离线、实时及字段级血缘,满足数据溯源需求 AI问数 智能分析模块:基于AI大模型能力,提供对话式数据查询助手。用户通过自然语言问答即可获取数据,无需手写SQL,提升取数问数效率 数据库管理平台 数据库管理平台架构 内嵌AI大模型能力 智能化-慢SQL诊断及优化 研发效能平台 一站式全流程研发平台(需求->开发->测试->发布->运营) 基于AI大模型的全流程研发效能平Workspace 架构 实时语音同声传译支持14种语言实时翻译播报 欢 迎 交 流(注 明:公 司-职 位-姓 名)