大语言模型的异构计算和加速 戴金权(JasonDai) 1 英特尔院士 2 自回归大语言模型(基于Transformer解码器架构) 自回归大语言模型:预测下一个tokenTransformer解码器架构 训练;推理(第一个token/Prefill) 推理(下一个token/Decode) 内存带宽 计算 显存大小 分布式计算(互联) XPU异构计算 … 2~10xArcA770GPU(16GB) •CPU,GPU,NPU硬件加速 客户端 (IntelCoreUltraAIPC) 边缘端 (IntelAI座舱) 服务器 (IntelXeon+IntelArcGPUs) 低比特计算 •模型量化/压缩(WxAy) •数据类型(INTx,FPx) •低比特算子 •显存(如kvcache)使用量 •训练、微调(如QLoRA) 低比特大模型的精度 困惑度(Wikitext数据集) 大模型的异构计算和加速 推理算法优化 •Self-speculativedecoding •KVCachecompression •Slidingwindowattention •Sparseattention •Flashattention/decoding •Continuousbatching •Prefill/decodingdisaggregation •… IPEX-LLM:开源大模型XPU加速框架 Users/Developers Python(PyTorch)Ecosystemllama.cppEcosystem IPEX-LLMLibrary LLMAcceleration XPUCompute llama.cpp,Ollama,LangChain.js,OpenWebUI, … HuggingFace,Langchain,LlamaIndex,DeepSpeed,TRL,Axolotl, … IntelXPU https://github.com/intel-analytics/ipex-llm/11 英特尔XPU大模型加速体验 llama.cpp+IPEX-LLM(Phi-3-mini,Q4_0) Ollama+IPEX-LLM(Mistral-7B,Q4_K_M) TextGeneration-WebUI+IPEX-LLM(Llama3-8B,FP8) FastChat+IPEX-LLM(QWen1.5-72BFP6) 支持PEFT,TRL,Axolotl,Zero2/Zero3 英特尔XPU大模型应用创新 ExtendOffice展示 科东软件展示 智谱AI展示 百川智能展示 在英特尔XPU上运行RAGFlow (https://github.com/intel-analytics/ipex-llm/blob/main/docs/mddocs/Quickstart/ragflow_quickstart.md) 在英特尔XPU上运行GraphRAG (https://github.com/intel-analytics/ipex-llm/blob/main/docs/mddocs/Quickstart/graphrag_quickstart.md) CalltoActions •关注和试用IPEX-LLM,并给我们反馈 •https://github.com/intel-analytics/ipex-llm/ •使用IPEX-LLM在IntelXPU平台开发大模型及其应用 •客户端-边缘-服务器(IntelCoreUltraAIPC、AI座舱、Xeon+IntelArcGPUs) •高效的大模型XPU加速的创新 •大模型应用场景的创新 谢谢! 26 Notices&Disclaimers Performancevariesbyuse,configurationandotherfactors.LearnmoreonthePerformanceIndexsite. Performanceresultsarebasedontestingasofdatesshowninconfigurationsandmaynotreflectallpubliclyavailableupdates.Seebackupforconfigurationdetails.Noproductorcomponentcanbeabsolutelysecure. Yourcostsandresultsmayvary. Inteltechnologiesmayrequireenabledhardware,softwareorserviceactivation. ©IntelCorporation.Intel,theIntellogo,andotherIntelmarksaretrademarksofIntelCorporationoritssubsidiaries.Othernamesandbrandsmaybeclaimedasthepropertyofothers. 27