释放算力潜能加速应用构建Serverless为AI创新提速 赵庆杰阿里云Serverless基础架构团队负责人 2023年12月1日 目录 01AI应用的发展趋势以及面临挑战 02Serverless技术加速AI应用的构建 03ServerlessAI应用案例 AI应用场景极速增长 百花齐鸣的AI应用市场竞争下,“迭代速度”成为关键因素之一 模型训练 AI应用面临的挑战 •AI应用的构建复杂,且需要多环境部署支持,需要与非AI应用集成 •随着AI应用功能逐渐丰富,调用链路长极大 影响问题的快速发现 •AI应用组件无法复用,持续重复造轮子,浪费资源成本,如绿网能力,队列等 •网关通用能力,安全鉴权,限流保护,多协议 支持,防护攻击等 AI技术概览 AI计算开发者领域 AI工具算法框架 算法库 AIStudio AI在线应用(推理) 网关鉴权快速部署服务依赖 AI应用PaaS平台 资源调度 资源虚拟化 分布式调度 基础设施:数据存储与高性能网络 异构计算 GPU CPU FPGA NPU AI计算力面临的挑战 •GPU资源紧缺且成本高,需要持续保有购买 •卡型不统一导致算力不统一,进而影响应用层架构 •随着计算规模的提升,容错能力也越来越重要 •大数据的读取,以及模型的快速加载,对于底层的技术要求越来越高 经常听到的问题? 硬件复杂度 资源管理复杂度 全系统优化复杂度 调度效率复杂度 ServerlessAI应用解决方案 不同角色,在AI场景下的诉求 工程相关 模型相关 AI开发者 算法相关 接口相关 工程相关负责AI应用平台建设和管理 •工程能力比较强,更希望有一个平台可以提升整体的研发效能,降低运维成本; •往往和实验室/公司内的设备有强关联,需要有安全保障等; 算法相关 如何方便快捷部署使用 如何高效率低成本落地 接口相关通过API等对接口进行工程化封装 •工程能力比较强,更希望有一些项目案例等,可以帮助业务快速的发布和上线; •有完整的应用开发、调试、发布流程等; Serverless开发平台AI场景 函数计算提供构建现代化高可用AI应用的简化路径,是AI应用的最佳实践 AI场景/行业 电商 教育 医疗 创作 软件开发 旅游行业 Serverless开发中心 场景化案例库 Composer 应用全生命周期管理 应用多环境管理 应用流水线 APIGW NAS 模型/应用生态 场景化AI应用 函数计算MaaS 函数计算 FaaS BaaS ModelScope HuggingFace 通义千问 AppStore 其它模型Plugin RDS GreenW eb MQ ARMS 数据来源于阿里云业务数据 函数计算AI场景特定能力 ServerlessGPU–按请求付费 业务流量 ServerlessGPU虚拟化技术 •算力强隔离,显存强隔离 •故障强隔离 •GPU兼容原生应用 ServerlessGPU两级资源池 •热资源池:避免Node级别ScaleOut引起的分钟级别冷启动。 •资源供给:FCGPU/IaaSGPU两级资源池共同保证GPU资源供给。 •使用成本:FCGPU资源池平台持有,用户只为真实使用付费。 热资源池,实时弹性,平台持有,用户低成本 ServerlessGPU–按请求付费 免费额度:函数计算为首次开通服务的用户提供免费试用额度: •GPU试用额度:前100万GB*秒GPU资源使用免费。 •注意:免费额度不包含公网出流量。领取后3个月有效期。 计费项 单价 函数调用次数 0.002元/万次 GPU使用量 0.00005元/GB*秒 共享存储(对象存储oss) 共享存储(OSS,延时10-20ms) •L2缓存,跨机器传输,延时< 5ms •针对Serverless系统高度优 化,以应用为粒度进行组网 •大并发启动性能7X提升 实例节点 实例节点 •L1缓存,云盘,延时几十us •应用启动tracing数据驱动块存储预取 •负载感知的缓存管理策略,目标L1命中率>90% •IO实时公平流控 数据来源于阿里云业务数据 CloudDisk VMM MicroVM 顶会论文 •UsenixATC2020:DADIBlock-LevelImageServiceforAgileandElasticApplicationDeployment •UsenixATC2021:FaaSNet:ScalableandFastProvisioningofCustomServerlessContainerRuntimesatAlibabaCloudFunctionCompute GB级镜像实例秒级启动 挑战 典型负载模式:一次性提交大量任务,启动数百-数千实例处理共享存储带宽有限,大规模实例启动打满带宽 共享存储延时10-20ms,比块存储慢10X以上 思路 镜像中存在大量冗余数据,按需加载远端数据结合多种存储服务构建层次化的缓存体系 通过负载感知的方式最大化缓存效果 结果 块存储的性能,共享存储的成本GB级镜像启动开销~3秒SD7~8GB模型启动20秒 最大镜像支持15GB MicroVM VMM CloudDisk AI应用的集成:一键部署AI应用 Serverless开发平台 HuggingFace 云市场 致力于构建现代化高可用AI应用最短路径 Custom (自己项目) ModelScope 直播 数据归因分析、内容生产、话术整理等 内容电商 基于开源模型和通义千问 进行图片生成,旅游攻略等内容生成 教育/客服 预料问答 Custom (自定义) AI应用场景/行业 Civitai 通义千问应用市场 OSS GreenWeb 函数计算 其它大模型 通义千问 其它大模型 Plugin 场景化模板案例 排队模型 AI 场景特定能力 内容安全 默认API/UI 基础模型管理 应用管理 多环境 基础能力 流水线/CICD 可观测能力 WebIDE …… NAS PAI …… •应用管理•域名管理 •可观测•安全管理 •应用流水线•开发流程 •云上开发•多环境 •模型管理 用户 API调用 上传模型 函数计算AI开发模式 应用案例 Serverless开发平台AI应用场景 开发者 代码仓库 函数计算 消息中间件 绿网 硬盘挂载 数据库 对象存储 私有网络 …… UI使用 上传代码 啥都没有,思路探索 AI场景将会提供StableDiffusion,LangChain,OCR等多种形式的AI应用案例,用户可以一键选择,快速部署,直接使用 HuggingFace/ModelScope 用户只需提供HuggingFace、Modelscope的模型地址/创空间地址,即可快速构建AI应用,并天然具备API调用能力或UI使用能力 热门场景/热门模型 针对行业内热门应用、场景、模型,提供定制化UI,进一步提升使用体验,例如StableDiffusion应用提供包括模型管理在内的应用管理页面 有模型,有代码,随时可用 只有模型、只有代码、或有模型又有代码的用户,可以使用通用的Serverless应用管理能力 /Web应用管理能力,帮助用户更好,更方便的使用函数计算 ServerlessAI应用案例 Serverless函数计算GPU应用场景选型指南(针对推理) 您的GPU工作负载是否有成本高、弹性慢、运维复杂的困扰? Yes降本提效 您的工作负载是在线在线还是离线任务? 您的工作负载 对延迟是否敏感? Yes 毫秒级延迟 您的工作负载对GPU集群的利用率高吗? No我很有钱 离线No 秒级延迟 No<60% 选择【函数计算+GPU】同步调用+实时推理 (GPU预留+自动弹性伸缩) 选择【函数计算+GPU】同步调用+准实时推理 (自动弹性伸缩,有秒级冷启) 选择【函数计算+GPU】异步调用模式 (支持异步任务状态管理) 选择 自建GPU集群 Yes >60% Serverless应用中心一键部署SD应用 Serverless函数计算平台 专属StableDiffusion环境 StableDiffusion后台 StableDiffusionWEBUI Serverless应用中心一键部署知识库应用 Serverless函数计算平台 大语言模型知识库应用 AIGC应用场景 如何高可用、高性能运行 如何高效率、低成本落地 如何快速体验、快速上手如何方便快捷的部署使用 秒级弹性 大规模GPU集群 按量付费降本提效 应用中心一键部署GPU资源免维护 人人都可以拥有自己“专属”的AIGC环境 优秀的开发者体验提效降本的现代应用心智快速弹性的CPU+GPU实例完备的开发者套件 AI应用一键部署,快速上手;AI应用一键多环境划分,标准GitOPS流程;ModelScope一键托管;AIPlugin 一键发布到通义千问;阿里云函数计算与应用中心,具备与生态连通,与开源结合,快速上手、一键部署的完整通路,优秀的开发者体验。 高效能低成本进行AI应用的开发与部署是无数AI开发者/企业的重要关注点,Serverless架构凭借高资源利用率与按量付费模式,以及服务端免运维的开发者心智,成为一众AI开发者 /企业的首选; GPU实例是AI领域不可或缺的计算资源,在高昂的成本下,可弹性,且可快速弹性的GPU实力成为AI应用不可获取的部 分。阿里云函数计算拥有快速弹性的GPU实例,以及大规格的函数计算性能实例,这部分是承载AI应用稳定、高性能推理的重要环节。 完备的开发者套件,是开发者将AI应用部署到云原生架构必不可少的一环,在这一部分,阿里云Serverless架构拥有ServerlessDevs应用中心等完备的开发者套件,可以帮助开发者从0到1再到N,将业务Serverless化,并提供全生命周期管理能力 StableDiffusion与平台集成实践方案 AI创作设计解决方案合作 企业级内部设计平台使用中心化批量出图模式 企业自主设计平台portal 个性化C端APP/web调用 AK校验 API接口对接 函数与用户映射FC异步队列 SDWebUISDAPI处理 ServerlessWebUI-方案优势解析 优势项 社区webui 自建webui ServerlessWebUI 服饰穿搭实践 LoRA训练Tag生成|编辑训练 ControlNet成果展示1成果展示2 图片有AI生成 大语言模型知识库应用场景 智能客户聊天 如企业客服,通过与呼叫中心/聊天机器人服务结合,可自动基于企业知识库就客户 提出的问题进行聊天回复; 社区自动问答 如RocketMQ开源知识社区,专门针对RocketMQ领域的知识问答及代码示例; 如游戏社区使用游戏的信息(例如游戏介绍,游戏攻略等)构建社区知识库,自动 回复社区成员提供的问题; 医疗领域问答 如罕见病专业知识回复,有限医疗资源情况下进行自助服务; 如中医知识问答,针对海量的中医知识进行归纳汇总,解答病患问题; 儿童保健及护理,儿童常见病咨询,营养 咨询等 电商平台搜索问答 如使用商品信息搜索,使用商品信息构建商品数据库,消费者可通过检索+问答的方式快速了解商品的详细信息; 如特定商品检索,如节日礼物,周年庆, 亲情礼品等,根据特定信息进行定制检索, 快速触达用户 IT/HR系统智能问答 如使用企业内部IT/HR使用手册构建企业知识库,企业内部员工可通过该知识库快 速解决在IT/HR上遇到的问题。 智能教育辅导 如使用教材和题库构建不同教育阶段的知识库,模拟和辅助老师/家长对孩子进行教 学。 大语言模型知识库的基本原理 架构图 基本流程 本地文档 知识库问答 01私域数据向量化 将非结构化内容进行向量处理 内部数据 UnstructuredLoader TextText Splitter Tex