您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[天风证券]:天风:AI大模型部署优化公司 清昴智能:姚航- 加速大模型落地,让AI无处不在【WAIC AI+万物生长论坛】20230707 - 发现报告
当前位置:首页/会议纪要/报告详情/

天风:AI大模型部署优化公司 清昴智能:姚航- 加速大模型落地,让AI无处不在【WAIC AI+万物生长论坛】20230707

2023-07-06天风证券九***
天风:AI大模型部署优化公司 清昴智能:姚航- 加速大模型落地,让AI无处不在【WAIC AI+万物生长论坛】20230707

演讲嘉宾:清昴智能科技COO姚航 演讲主题:加速大模型落地,让AI无处不在时间:2023年7月7日 嘉宾介绍 清昴智能科技COO姚航:清昴智能是一家AI模型推理部署解决方案提供商,旨在为各行业客户提供顶尖的AI优化和工程化能力,致力于解决AIGC、自动驾驶 、AIoT等领域复杂AI模型的落地难、性能差、资源耗费高等问题。 嘉宾演讲实录AIGC时代:如何让大模型更好更快地落地应用? 大模型逐渐成为新时代的“水电煤”,底层技术革新带来各行各业的结构性机遇,在此情况下,如何将大模型高效落地是如今的核心热点,但成本和使用门槛仍是巨大的挑战。 大模型高效落地的核心痛点可分为以下四点: 1)模型参数量大、显存与资源占用高:以OPT-175B模型为例,部署一个模型仅推理就需要5张80GB显存版本的A100。 2)推理成本高,算力需求大:据推测,ChatGPT运行每天花费至少70万美元 ;OpenAI推理集群对GPU的需求量近10万张。实际测算,大模型云服务对算力的需求是现有小模型基础设施的近30倍以上。在未来几年,训练侧和推理侧的算力需求将迎来近百倍的提升,推理侧算力需求的提升尤为显著。 3)英伟达显卡价格贵、货源受限,非N卡适配性差:A100单卡10万+,溢价高,货源受限;非N卡工具链和库资源匮乏、产品迭代和兼容性的代价大,目前底层的算力支持无法满足大模型的高速发展和高速落地。 4)开发与部署周期长:模型的开发、微调与上线压缩优化需要领域内专家工程师针对具体场景进行调优,单模型调优需要往往超过100人/天的工作量,使得模型落地缓慢。 解决方案:自动优化工具链MLGuider 基于以上痛点,清昴智能基于自研的自动机器学习算法和优化系统,打造面向基础模型的自动优化工具链MLGuider,以AI构建AI的方式,自动寻找模型和硬件适配的最优解。 具体而言,公司面对复杂的AI基础模型,通过大模型工具链MLGuider自动寻找高效的、适配硬件的AI基础模型,帮助复杂AI基础模型高效运行在云、边、端等各类硬件环境上。 MLGuider核心策略 为了加速大模型落地,公司同步推出了MLGuider核心策略,涵盖以下三种策略: 1)自适应基础模型量化策略:将神经网络结构搜索与传统的剪枝量化相结合 ,将模型自适应地进行优化与模拟调优,实现了4比特、3比特、2比特的混合精度量化,让模型以极低的算力需求运行在硬件上。 2)算子融合与调优策略:基于Triton、TVM的框架和工具,实现算子融合与调优策略,降低大模型对硬件层的显存占用要求。 3)Offloading策略:在资源有限的条件下,将GPU以外的一部分计算任务搬运至CPU磁盘,让大模型在资源有限的条件下也能高效运行。 公司针对现有的开源基础模型,已实现推理速度获取2-4倍的提升,资源显存占用下降2-10倍。 产品矩阵 基于全链路工具链MLGuider,公司已完成对AMD、Qualcomm、瑞芯微等非N卡芯片适配。以此为基础,公司同步推出了三大产品矩阵:大模型一体化整机方案,大模型开发部署LLMOps平台,大模型本地化及边端部署方案。 1)大模型一体化整机方案 AI产业的“iPhone”时刻已经到来,各行业急需大量高能效的易用算力以轻松运行各类大模型。基于AMDMI210,预装LLM全链路工具链的训推一体机,该训推一体机可实现以下四点: 全流程覆盖:针对AMDGPU的大模型workload,涵盖从模型训练、微调到优化、推理、部署全流程支持。 易用高兼容:无缝兼容PyTorch、Huggingface等主流框架,完美支持Llama 、ChatGLM,并预装StableDiffusion、CPM-Bee、Falcon等开源可商用模型 。 可扩展性强:已验证可支持近千卡(~400台服务器)规模的并行训练LLM能力 。 高效低延迟:从6B到176BLLM的高效推理能力,多场景性能对标甚至超越NvidiaA100Pytorch+CUDA。 总体而言,一体机整机方案可以为客户提供即即用、性价比极高的算力,让大模型触手可及。 2)大模型开发部署LLMOps平台 大模型开发部署LLMOps平台能够帮助客户进行基础模型服务构建与企业微调 。客户在平台上进行快速的基础模型选型,并且基于自身已有需求进行基础模型构建,同时基于自身的已有数据进行企业微调,打造企业私有化大模型。同时,公司帮助企业进行模型的优化和性能提升,使大模型使用更加高效。 3)大模型本地化及边端部署方案 对于有关注数据隐私和安全的企业用户,想本地化并快速部署和运用大模型的 能力,清昴提供本地化集群部署方案,基于企业私有化数据和开源模型通过MLGuider实现本地化集群搭建和大模型全生命周期管理,最终打造企业私有化大模型。对于边端用户,希望低功耗低延时高吞吐地将大模型能力运行在边端环境中,清昴已适配高通芯片和瑞芯微芯片,已实现在手机上运用3G内存推理70亿大模型参数和在瑞芯微开发板上实现60亿大模型的高效推理,最终可运用在智能手机、智能机器、智能音箱等端侧设备上,释放大模型的无限潜能。 总结 清昴智能针对大模型落地的核心痛点,即模型参数量大、显存与资源占用高、推理延迟高、成本高;开发与部署周期长;非N卡适配性差,基于自身工具链 ,推出一系列产品矩阵,包括大模型一体化整机方案、大模型开发部署LLMOps平台、大模型本地化及边端部署方案,实现极致的模型优化、高性价比的训推服务、低门槛的模型开发、全栈的硬件适配。 清昴智能面向基础模型的软件工具链,让大模型触达每个角落。