热门搜索：

CTO100内容精选-清远站

2024-07-05腾讯胡***

让Infra高效运转大模型推理场景的挑战与实践演讲者：王彬腾讯云AI行业高级架构师 CONTENT 目录 01推理场景的挑战 02技术方案 03案例实践推理场景的挑战推理场景的挑战 AIGC应用的PMF 模型的选择开源LLAMA3对自研模型、SFT模型的冲击，导致是否要在应用中替换模型引擎，模型的一致性如何保障。 DiT模型Open-Sora和SDUnet优化，到了重新选择技术栈路线的时刻。越来越重的工程化投入负担围绕生图、LLM、图像理解、视频生成、音频生成，对工程化能力要求越来越高，对AIGC应用迭代、创新负担不断加大。生成式内容管理《生成式人工智能服务管理暂行办法》等合规要求出台，AIGC行业需要落实三类合规要求，分别是数据、内容和算法。在数据合规方面在AIGC特定的大模型下提供者应当对生成式人工智能产品的预训练数据、优化训练数据来源的合法性负责。在内容合规方面提供者应当依法依规对生成的图片、视频等内容进行标识，履行信息内容管理主体责任，加强本平台网络信息内容生态治理。在算法合规方面数据访问 Infra降本提效计算和显存效率随着MoE模型和LongContext的提升，推理所需性能和延迟要求会增高，为满足业务性能要求，更高计算效率和更高显存效率，是急需解决的问题。业务落地受限目前大模型的服务成本太高，只能用于高价值用户场景。计算和存储利用率的提升，可能让单位成本迅速降低，从而快速拓展场景到娱乐，内容，多种用户界面。算法推荐服务提供者必须落实算法备案要求、算法评估要求、算法相对透明要求、用户权益建立健全机制等要求。数据时效性性差大模型训练数据都截止到过去的某一个时间点。在一些例如金融的财报，股价，生活中的天气，体育赛事，经济数据等场景缺乏时效性。多模态内容理解问题对于图像、音频等内容理解、比对、转译等场景，缺乏有效的工程化手段，导致缺乏理解。技术方案一站式工程化 AIGC应用重要的工程化过程数据沉降管理推理加速 CPU/GPU 混布在离线混布效能提升灰度/金丝雀容量评估容器化部署持续发布 DevOps 等级保护 App备案 ICP备案算法备案合规性搜索增强内容审核向量库 LongContext 性能质量行为日志埋点跨境部署推理阶段服务部署模型评价 SFT微调模型选择训练阶段 *引用自HorizonAI的Top100AI工具推理加速提升效率 1.显存优化缓存定长+AWQ量化，提升参数支持规模 2.计算优化 Attention及GQA优化算子库 Add FusedAddNorm Layernorm QGemm 3.SD场景算子优化支持Attention大的算子匹配融合 Tensor KGemm VGemm FusedBatchGemm Bloom7B ChatGLM Llama2 开源方案17.7ms/token 12.9ms/token 加速比:1.37 开源方案30ms/token 12.5ms/token 加速比:2.4 开源方案46ms/token 26ms/token 加速比:1.77 Angel Angel Angel SD-v1.5 huggingfacefp16，512*512 2305ms 加速比:1.44 3313ms SD-v2.1 huggingfacefp16，512*5126373ms 4165ms 加速比:1.53 SD-v2.1+lorahuggingfacefp16，512*5124002ms 2486ms 加速比:1.61 Angelp16，512*512 Angelp16，512*512 Angelp16，512*512 LLM推理加速效果对比SD推理效果对比围绕AIGC音视图文的内容审核+价值观判断请画一幅日落的山水画 Prompt ① 文本、图像输入 AIGCreturn 内容合规审核审核能力色情低俗/敏感时事/血腥暴力/广告/谩骂/违禁违法/特殊符号/特殊服装/特殊语言/特殊旗帜/… 解决方案自动化审核服务/场景化运营策略/定制识别服务/历史数据清洗/… ③ ④ 审核结果内容风险评分低分：正常放过高分：敏感拦截 ② 过审输入 ③媒体输出 AIGC模型 Text/image->Image Text->Video Text->Text GenerateContent ⑤输出+水印 0000010100101000100101001010010100101 0101001 001010C0O0S10D0a10t1a10L1a00ke1010001001 文本/图片/视频/音频输出 Text/Picture/Video/Audio •便捷的接入：提供一体化的存储内容安全方案，增量数据一键开启审核，极低的开发成本 •精准的模型：针对AIGC场景审核策略的专项调优和底层模型的定制开发 •更高的性能：根据存储数据智能地调度处理集群，近存储侧的处理能力提供更优的数据传输时延和更低的成本向量库，AIGC应用不可或缺的“外挂硬盘” 业务挑战 •缺少上下文扩展能力：开源模型受限于其训练方式，缺乏良好的长文本扩展性企业知识导入 •企业私有数据无法公开：目前大模型均为预训练模型，仅能学习公开数据，无法学习企业私有数据当前问题 ①输入问题上文问题知识块向量数据数据切割服务向量写入 Embedding服务向量数据库VectorDB ③问题向量化④向量搜索基于LangChain的后端应用服务解决方案：更大的推理数据扩展 •通过腾讯云向量数据库为大模型提供外部知识库，提高大模型回答的准确性，单索引行数可达10亿行数据分区管理 •多租户场景下自定义数据分区策略，提升数据索引效率，免去分库分表复杂性端到端AI套件满足RAG应用所需企业级LLM （知识求解）企业级LLM （问题提炼）返回用户答案 ②提炼问题 ⑤相关知识+问题 ⑥输出答案 •包括“文档预处理”、“embedding模型”、“向量检索算法”等多重套件功能组合，提供端到端方案 AIGC数据在异构存储之间流转提效数据采集数据预处理CPU 特征工程模型训练推理应用 COS/S3 HDFS POSIX POSIX POSIX 数据迁移上云服务 CFSTurbo 原始数据预处理后数据特征/训练数据生产内容数据 COS对象存储 •方便数据接入：开源数据集/第三方数据集，非常方便从COS统一接入； •方便数据流动：数据统一存储在COS，对接多个处理环节中，数据自由流动，无需数据迁移；缓存加速后，大幅度提升数据处理和 •高数据处理性能：数据通过GooseFS 训练性能，最高100GB/s吞吐； •降低业务成本：COS提供低成本海量存储，同时通过CFSTrubo冷热数据分层能力，提升训练效率，降低业务成本；搜索增强，补齐实时性内容、图片内容检索模型训练阶段数据集数据标注用户 LLM大模型模型推理应用向量数据库 4、内容缓存 3、推理增强 2、标注辅助 1、数据增强业务挑战：模型应用的推理阶段，LLM内的先验知识无法涵盖实时场景，如新闻热点、天气、股票等信息。解决方案 1.LLM推理阶段数据增强在推理应用过程中，将搜索引擎集成于LLM判断逻辑中，将输入的token拆解后送入搜索引擎查询，帮助LLM大模型补齐实时信息、降低幻觉。 2.多模态图搜数据增强在多模态场景场景中，当用户上传图片需要基于内容的搜索匹配时，可以采用图搜接口，用于图像内容的搜索增强。 3.常用信息的内容缓存缓存高频调用搜索引擎的内容，并将搜索返回的JSON内容存放于向量数据库，降低调用过程的延迟。 GPU类型业务使用CPU资源使用GPU资源 CPU资源池 GPU资源池 TKEResourceQoSManager GPUServer GPU&CPU业务混布 -隔离&抢占：“如意RUE”内核实现了动态的资源调度和抢占。 -无门槛：业务零改造接入，快速提升资源使用率，降低客户成本 -弹性调度：实时监控为离线业务提供弹性资源调度能力 TencentOS如意RUE内核 CPU类型业务业务混布，进一步提升利用率 CPU 内存磁盘网络 CpuQos MemQos DiskQos IOQos TKEqGPUScheduler binpack spread Pod1 Pod2 Pod1 Pod2 ⅔ GPU Pod3 ⅓ GPU GPU0 GPU1 GPU推理业务混布 -高优任务，保证负载均衡，低优任务，保证资源利用率 -支持在线100%抢占 -GPU利用率的极致提高高低优推理任务在离线推理任务低优任务低优任务高优任务低优任务高优任务企业组织上，围绕AIGC应用的改变人才（算法/工程/产品）是竞争力、GPU使用效率是底线产品PMF导向，直接用云搭MVP 01利用云厂商现成的产品力，快速搭建MVP，快速试错。例如：伴聊场景中的RTC外呼、IM、历史对话记忆云、产品、算法、工程的协同云厂商+算法+工程+产品，四方互相协调。 02例如：卡便宜显存有瓶颈时，工程团队能否实现量化，产品侧能否接受部分效果有损围绕GPU的业务运转模式 03 例如：AIGC业务元数据的管理 •GPU的价格（包月、按量）、规模、地域 •不同类型GPU：单位价格下性能、单位性能下价格 •业务可接受的性能、单价案例实践某LLM客户，采用TACO-LLM推理加速方案总吞吐，TACO-LLM比vLLM高42.8%，比TGI高35.2% 生文bt业务场景请求数onXXX 2500 2305 2163 2000 1500 1408 1000752 500 0 OOM OOM 0 0 生文cy业务场景onXXX 35003129 30002757 2500 2000 1500 1000 500 0 1923 1317 OOM OOM 0 0 2并发：原方案 2并发:+TACO-LLM 5并发：原方案 5并发:+TACO-LLM 10并发：原方案 10并发:+TACO-LLM 2并发：原方案 2并发:+TACO-LLM 5并发：原方案 5并发:+TACO-LLM 10并发：原方案 10并发:+TACO-LLM 测试模型：业务生文bt模型|GPU:XXXX 测试条件：从并发batch=2/5/10，运行业务1800s，对比可处理的请求数测试结果 •TACO-LLM在2并发时处理请求数达到原方案的1.9倍； •在5/10并发时，原方案OOM，TACO-LLM可运行，极大提高业务吞吐。测试模型：业务生文cy模型|GPU:XXX 测试条件：从并发batch=2/5/10，运行业务1800s，对比可处理的请求数测试结果 •TACO-LLM在2并发时处理请求数达到原方案的1.5倍； •在5/10并发时，原方案OOM，TACO-LLM可运行，极大提高业务吞吐。某AIGC客户风格定制&风格广场某AIGC客户案例分享验证码资源调度文本审核插件集成图片审核用户管理计费服务运营数据企业概览 •XX科技，是一家AI人工智能生成平台，旗下有VegaAI绘画生成产品，为用户提供AI智能生成业务。通过AI智能结合用户输入字段进行智能图片生成，提升创作者工作效率。 •VegaAI绘画使用自研扩散模型构建文生图、图生图推理平台，基于中英文描述或上传自定义图片，利用AI模型为用户生产多风格、多画质的图片。业务挑战 •公司处于热点风口，被攻击和盗刷等安全风险较高。为保障平台正常运营，需要加强用户上传图片和AI生成图片的合规审核，并且具有防攻击防盗刷等业务安全能力。 •模型微调对算力和存储要求高，同时需要控制成本。 •AI推理

点击免费查看完整报告

你可能感兴趣

CTO100内容精选-清远站

你可能感兴趣

CTO100出海产业研习团-华东站内容精选

CTO100内容精选--互联网研习团山西站

CTO100内容精选--互联网研习团东北站

公司首次覆盖报告：电商导购龙头，扩充内容形式、拓品类、发展站外流量

互联网与传媒行业：站“流量、内容、渠道”高地，享付费红利机遇