让Infra高效运转 大模型推理场景的挑战与实践 演讲者:王彬 腾讯云AI行业高级架构师 CONTENT 目录 01推理场景的挑战 02技术方案 03案例实践 推理场景的挑战 推理场景的挑战 AIGC应用的PMF 模型的选择 开源LLAMA3对自研模型、SFT模型的冲击,导致是否要在应用中替换模型引擎,模型的一致性如何保障。 DiT模型Open-Sora和SDUnet优化,到了重新选择技术栈路线的时刻。 越来越重的工程化投入负担 围绕生图、LLM、图像理解、视频生成、音频生成,对工程化能力要求越来越高,对AIGC应用迭代、创新负担不断加大。 生成式内容管理 《生成式人工智能服务管理暂行办法》等合规要求出台,AIGC行业需要落实三类合规要求,分别是数据、内容和算法。 在数据合规方面 在AIGC特定的大模型下提供者应当对生成式人工智能产品的预训练数据、优化 训练数据来源的合法性负责。 在内容合规方面 提供者应当依法依规对生成的图片、视频等内容进行标识,履行信息内容管理主 体责任,加强本平台网络信息内容生态治理。 在算法合规方面 数据访问 Infra降本提效 计算和显存效率 随着MoE模型和LongContext的提升,推理所需性能和延迟要求会增高,为满足业务性能要求,更高计算效率和更高显存效率,是急需解决的问题。 业务落地受限 目前大模型的服务成本太高,只能用于高价值用户场景。计算和存储利用率的提升,可能让单位成本迅速降低,从而快速拓展场景到娱乐,内容,多种用户界面。 算法推荐服务提供者必须落实算法备案要求、算法评估要求、算法相对透明要求、用户权益建立健全机制等要求。 数据时效性性差 大模型训练数据都截止到过去的某一个时间点。在一些例如金融的财报,股价,生活中的天气,体育赛事,经济数据等场景缺乏时效性。 多模态内容理解问题 对于图像、音频等内容理解、比对、转译等场景,缺乏有效的工程化手段,导致缺乏理解。 技术方案 一站式工程化 AIGC应用重要的工程化过程 数据沉降管理 推理加速 CPU/GPU 混布 在离线混布 效能提升 灰度/金丝雀 容量评估 容器化部署 持续发布 DevOps 等级保护 App备案 ICP备案 算法备案 合规性 搜索增强 内容审核 向量库 LongContext 性能质量 行为日志 埋点 跨境部署 推理阶段 服务部署 模型评价 SFT微调 模型选择 训练阶段 *引用自HorizonAI的Top100AI工具 推理加速提升效率 1.显存优化 缓存定长+AWQ量化,提升参数支持规模 2.计算优化 Attention及GQA优化算子库 Add FusedAddNorm Layernorm QGemm 3.SD场景算子优化 支持Attention大的算子匹配融合 Tensor KGemm VGemm FusedBatchGemm Bloom7B ChatGLM Llama2 开源方案17.7ms/token 12.9ms/token 加速比:1.37 开源方案30ms/token 12.5ms/token 加速比:2.4 开源方案46ms/token 26ms/token 加速比:1.77 Angel Angel Angel SD-v1.5 huggingfacefp16,512*512 2305ms 加速比:1.44 3313ms SD-v2.1 huggingfacefp16,512*5126373ms 4165ms 加速比:1.53 SD-v2.1+lorahuggingfacefp16,512*5124002ms 2486ms 加速比:1.61 Angelp16,512*512 Angelp16,512*512 Angelp16,512*512 LLM推理加速效果对比SD推理效果对比 围绕AIGC音视图文的内容审核+价值观判断 请画一幅日落的山水画 Prompt ① 文本、图像输入 AIGCreturn 内容合规审核 审核能力 色情低俗/敏感时事/血腥暴力/广告/谩骂/违禁违法/特殊符号/特殊服装/特殊语言/特殊旗帜/… 解决方案 自动化审核服务/场景化运营策略/定制识别服务/历史数据清洗/… ③ ④ 审核结果 内容风险评分低分: 正常放过 高分:敏感拦截 ② 过审输入 ③媒体输出 AIGC模型 Text/image->Image Text->Video Text->Text GenerateContent ⑤输出+水印 0000010100101000100101001010010100101 0101001 001010C0O0S10D0a10t1a10L1a00ke1010001001 文本/图片/视频/音频输出 Text/Picture/Video/Audio •便捷的接入:提供一体化的存储内容安全方案,增量数据一键开启审核,极低的开发成本 •精准的模型:针对AIGC场景审核策略的专项调优和底层模型的定制开发 •更高的性能:根据存储数据智能地调度处理集群,近存储侧的处理能力提供更优的数据传输时延和更低的成本 向量库,AIGC应用不可或缺的“外挂硬盘” 业务挑战 •缺少上下文扩展能力:开源模型受限于其训练方式,缺乏良好的长文本扩展性 企业知识导入 •企业私有数据无法公开:目前大模型均为预训练模型,仅能学习公开数据,无法学习企业私有数据 当前问题 ①输入问题 上文问题 知识块向量数据 数据切割服务 向量写入 Embedding服务 向量数据库VectorDB ③问题向量化④向量搜索 基于LangChain的后端应用服务 解决方案: 更大的推理数据扩展 •通过腾讯云向量数据库为大模型提供外部知识库,提高大模型回答的准确性,单索引行数可达10亿行 数据分区管理 •多租户场景下自定义数据分区策略,提升数据索引效率,免去分库分表复杂性 端到端AI套件满足RAG应用所需 企业级LLM (知识求解) 企业级LLM (问题提炼) 返回用户答案 ②提炼问题 ⑤相关知识+问题 ⑥输出答案 •包括“文档预处理”、“embedding模型”、“向量检索算法”等多重套件功能组合,提供端到端方案 AIGC数据在异构存储之间流转提效 数据采集 数据预处理CPU 特征工程 模型训练 推理应用 COS/S3 HDFS POSIX POSIX POSIX 数据迁移上云服务 CFSTurbo 原始数据预处理后数据特征/训练数据生产内容数据 COS对象存储 •方便数据接入:开源数据集/第三方数据集,非常方便从COS统一接入; •方便数据流动:数据统一存储在COS,对接多个处理环节中,数据自由流动,无需数据迁移; 缓存加速后,大幅度提升数据处理和 •高数据处理性能:数据通过GooseFS 训练性能,最高100GB/s吞吐; •降低业务成本:COS提供低成本海量存储,同时通过CFSTrubo冷热数据分层能力,提升训练效率,降低业务成本; 搜索增强,补齐实时性内容、图片内容检索 模型训练阶段 数据集 数据标注 用户 LLM大模型 模型推理应用 向量数据库 4、内容缓存 3、推理增强 2、标注辅助 1、数据增强 业务挑战:模型应用的推理阶段,LLM内的先验知识无法涵盖实时场景,如新闻热点、天气、股票等信息。 解决方案 1.LLM推理阶段数据增强 在推理应用过程中,将搜索引擎集成于LLM判断逻辑中,将输入的token拆解后送入搜索引擎查询,帮助LLM大模型补齐实时信息、降低幻觉。 2.多模态图搜数据增强 在多模态场景场景中,当用户上传图片需要基于内容的搜索匹配时,可以采用图搜接口,用于图像内容的搜索增强。 3.常用信息的内容缓存 缓存高频调用搜索引擎的内容,并将搜索返回的JSON内容存放于向量数据库,降低调用过程的延迟。 GPU类型业务 使用CPU资源 使用GPU资源 CPU资源池 GPU资源池 TKEResourceQoSManager GPUServer GPU&CPU业务混布 -隔离&抢占:“如意RUE”内核实现了动态的资源调度和抢占。 -无门槛:业务零改造接入,快速提升资源使用率,降低客户成本 -弹性调度:实时监控为离线业务提供弹性资源调度能力 TencentOS如意RUE内核 CPU类型业务 业务混布,进一步提升利用率 CPU 内存 磁盘 网络 CpuQos MemQos DiskQos IOQos TKEqGPUScheduler binpack spread Pod1 Pod2 Pod1 Pod2 ⅔ GPU Pod3 ⅓ GPU GPU0 GPU1 GPU推理业务混布 -高优任务,保证负载均衡,低优任务,保证资源利用率 -支持在线100%抢占 -GPU利用率的极致提高 高低优推理任务 在离线推理任务 低优任务 低优任务 高优任务 低优任务 高优任务 企业组织上,围绕AIGC应用的改变 人才(算法/工程/产品)是竞争力、GPU使用效率是底线 产品PMF导向,直接用云搭MVP 01利用云厂商现成的产品力,快速搭建MVP,快速试错。例如:伴聊场景中的RTC外呼、IM、历史对话记忆 云、产品、算法、工程的协同 云厂商+算法+工程+产品,四方互相协调。 02例如:卡便宜显存有瓶颈时,工程团队能否实现量化,产品侧能否接受部分效果有损 围绕GPU的业务运转模式 03 例如:AIGC业务元数据的管理 •GPU的价格(包月、按量)、规模、地域 •不同类型GPU:单位价格下性能、单位性能下价格 •业务可接受的性能、单价 案例实践 某LLM客户,采用TACO-LLM推理加速方案 总吞吐,TACO-LLM比vLLM高42.8%,比TGI高35.2% 生文bt业务场景请求数onXXX 2500 2305 2163 2000 1500 1408 1000752 500 0 OOM OOM 0 0 生文cy业务场景onXXX 35003129 30002757 2500 2000 1500 1000 500 0 1923 1317 OOM OOM 0 0 2并发:原方案 2并发:+TACO-LLM 5并发:原方案 5并发:+TACO-LLM 10并发:原方案 10并发:+TACO-LLM 2并发:原方案 2并发:+TACO-LLM 5并发:原方案 5并发:+TACO-LLM 10并发:原方案 10并发:+TACO-LLM 测试模型:业务生文bt模型|GPU:XXXX 测试条件:从并发batch=2/5/10,运行业务1800s,对比可处理的请求数 测试结果 •TACO-LLM在2并发时处理请求数达到原方案的1.9倍; •在5/10并发时,原方案OOM,TACO-LLM可运行,极大提高业务吞吐。 测试模型:业务生文cy模型|GPU:XXX 测试条件:从并发batch=2/5/10,运行业务1800s,对比可处理的请求数 测试结果 •TACO-LLM在2并发时处理请求数达到原方案的1.5倍; •在5/10并发时,原方案OOM,TACO-LLM可运行,极大提高业务吞吐。 某AIGC客户 风格定制&风格广场 某AIGC客户案例分享 验证码 资源调度 文本审核 插件集成 图片审核 用户管理 计费服务 运营数据 企业概览 •XX科技,是一家AI人工智能生成平台,旗下有VegaAI绘画生成产品,为用户提供AI智能生成业务。通过AI智能结合用户输入字段进行智能图片生成,提升创作者工作效率。 •VegaAI绘画使用自研扩散模型构建文生图、图生图推理平台,基于中英文描述或上传自定义图片,利用AI模型为用户生产多风格、多画质的图片。 业务挑战 •公司处于热点风口,被攻击和盗刷等安全风险较高。为保障平台正常运营,需要加强用户上传图片和AI生成图片的合规审核,并且具有防攻击防盗刷等业务安全能力。 •模型微调对算力和存储要求高,同时需要控制成本。 •AI推理