您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[英特尔]:大模型的异构计算和加速 - 发现报告
当前位置:首页/行业研究/报告详情/

大模型的异构计算和加速

信息技术2024-10-28戴金权英特尔申***
AI智能总结
查看更多
大模型的异构计算和加速

大语言模型的异构计算和加速 戴金权(JasonDai) 1 英特尔院士 2 自回归大语言模型(基于Transformer解码器架构) 自回归大语言模型:预测下一个tokenTransformer解码器架构 训练;推理(第一个token/Prefill) 推理(下一个token/Decode) 内存带宽 计算 显存大小 分布式计算(互联) XPU异构计算 … 2~10xArcA770GPU(16GB) •CPU,GPU,NPU硬件加速 客户端 (IntelCoreUltraAIPC) 边缘端 (IntelAI座舱) 服务器 (IntelXeon+IntelArcGPUs) 低比特计算 •模型量化/压缩(WxAy) •数据类型(INTx,FPx) •低比特算子 •显存(如kvcache)使用量 •训练、微调(如QLoRA) 低比特大模型的精度 困惑度(Wikitext数据集) 大模型的异构计算和加速 推理算法优化 •Self-speculativedecoding •KVCachecompression •Slidingwindowattention •Sparseattention •Flashattention/decoding •Continuousbatching •Prefill/decodingdisaggregation •… IPEX-LLM:开源大模型XPU加速框架 Users/Developers Python(PyTorch)Ecosystemllama.cppEcosystem IPEX-LLMLibrary LLMAcceleration XPUCompute llama.cpp,Ollama,LangChain.js,OpenWebUI, … HuggingFace,Langchain,LlamaIndex,DeepSpeed,TRL,Axolotl, … IntelXPU https://github.com/intel-analytics/ipex-llm/11 英特尔XPU大模型加速体验 llama.cpp+IPEX-LLM(Phi-3-mini,Q4_0) Ollama+IPEX-LLM(Mistral-7B,Q4_K_M) TextGeneration-WebUI+IPEX-LLM(Llama3-8B,FP8) FastChat+IPEX-LLM(QWen1.5-72BFP6) 支持PEFT,TRL,Axolotl,Zero2/Zero3 英特尔XPU大模型应用创新 ExtendOffice展示 科东软件展示 智谱AI展示 百川智能展示 在英特尔XPU上运行RAGFlow (https://github.com/intel-analytics/ipex-llm/blob/main/docs/mddocs/Quickstart/ragflow_quickstart.md) 在英特尔XPU上运行GraphRAG (https://github.com/intel-analytics/ipex-llm/blob/main/docs/mddocs/Quickstart/graphrag_quickstart.md) CalltoActions •关注和试用IPEX-LLM,并给我们反馈 •https://github.com/intel-analytics/ipex-llm/ •使用IPEX-LLM在IntelXPU平台开发大模型及其应用 •客户端-边缘-服务器(IntelCoreUltraAIPC、AI座舱、Xeon+IntelArcGPUs) •高效的大模型XPU加速的创新 •大模型应用场景的创新 谢谢! 26 Notices&Disclaimers Performancevariesbyuse,configurationandotherfactors.LearnmoreonthePerformanceIndexsite. Performanceresultsarebasedontestingasofdatesshowninconfigurationsandmaynotreflectallpubliclyavailableupdates.Seebackupforconfigurationdetails.Noproductorcomponentcanbeabsolutelysecure. Yourcostsandresultsmayvary. Inteltechnologiesmayrequireenabledhardware,softwareorserviceactivation. ©IntelCorporation.Intel,theIntellogo,andotherIntelmarksaretrademarksofIntelCorporationoritssubsidiaries.Othernamesandbrandsmaybeclaimedasthepropertyofothers. 27