研究报告 (2024年第18期总第50期)2024年12月18日 LLM时代小模型的应用潜力与挑战 清华大学五道口金融学院财富管理研究中心张晓燕张艺伟张远远 【摘要】大语言模型在自然语言处理领域取得了显著成就。然而,由于其高昂的成本和资源消耗,其商业化应用仍处于早期 阶段。相比之下,小语言模型凭借较低的训练成本和较小的计算资源需求等优势,展现出很大的潜力。本研究通过分析国内外小模型的发展现状与具体案例探讨了小模型的应用潜力与面临的挑战。研究发现:(1)小模型体型虽小但功能强大,具有成本优势;(2)我国小模型在专业领域中的表现能够超越国外通用模型,同时综合能力大幅提升,具有技术创新性;(3)由于大模型对算 力资源的高需求,我国在资源与技术受限的情况下发展小模型,能够助力我国在全球AI竞赛中脱颖而出。本文为我国AI行业发展提供了战略方向。 ResearchReport December18,2024 ApplicationPotentialandChallengesofSmallLanguageModelintheLLMEra ResearchCenterforWealthManagement,PBCSchoolofFinance,TsinghuaUniversity ZhangXiaoyanZhangYiweiZhangYuanyuan Abstract:Largelanguagemodelshavemaderemarkableachievementsinthefieldofnaturallanguageprocessing.However,duetotheirhighcostandresourceconsumption,theircommercialapplicationisstillinitsearlystages.Incontrast,smalllanguagemodelshaveshowngreatpotentialduetotheiradvantagessuchaslowtrainingcostandsmallcomputingresourcerequirements.Thisstudyexplorestheapplicationpotentialandchallengesofsmallmodelsbyanalyzingthedevelopmentstatusandspecificcasesofsmallmodels athomeandabroad.Thestudyfoundthat:(1)Smallmodelsaresmallinsizebutpowerfulinfunction,andhavecostadvantages;(2)mycountry'ssmallmodelscanoutperformforeigngeneralmodelsinprofessionalfields,andtheircomprehensivecapabilitiesaregreatlyimproved,whichistechnologicallyinnovative;(3)Duetothehighdemandforcomputingresourcesbylargemodels,mycountry'sdevelopmentofsmallmodelsundertheconditionoflimitedresourcesandtechnologycanhelpmycountrystandoutintheglobalAIcompetition.Thisarticleprovidesastrategicdirectionforthedevelopmentofmycountry'sAIindustry. 目录 一、小模型的发展背景及意义1 (一)发展背景1 (二)研究意义1 二、LLM时代小模型的发展现状2 (一)小模型定义2 (二)小模型与大模型比较3 (三)小模型的发展现状4 1.国际巨头深耕通用模型,中国企业聚焦多元垂直应用4 2.小模型目前的表现逐渐改善,然而距离大模型依然会有差距63.小模型体型虽小但功能强大8 (四)小模型的优势9 1.拥有巨大的成本优势9 2.指令微调以满足定制需求11 3.端侧搭配使用12 4.更低的延迟13 三、小模型的应用案例13 (一)国外小模型的应用案例13 1.通用领域小模型Phi-3-Mini:语言理解和生成13 2.通用领域小模型OpenELM:私有使用17 (二)国内小模型的应用案例20 1.垂直领域小模型智海·三乐:智能教学20 2.垂直领域小模型夫子•明察:法律咨询23 3.垂直领域小模型DeepSeek-Coder-V2-Lite:代码智能26 4.垂直领域小模型XuanYuan-6B:金融咨询29 (三)中国小模型的优势32 1.在专业领域中的表现超越国外通用模型32 2.综合能力大幅提升33 3.具有技术创新性37 四、小模型面临的挑战及解决方案39 (一)处理复杂任务能力有限39 (二)数据质量依赖性40 (三)使用局限性40 五、小模型的未来发展趋势和建议41 (一)发展小模型有助于提升我国在全球科技竞争中影响力41 (二)中国发展小模型的建议41 参考文献43 一、小模型的发展背景及意义 (一)发展背景 随着人工智能的迅速发展,以ChatGPT为代表的大语言模型的出现,在自然语言处理(NLP)领域取得了显著突破。这些大模型凭借其庞大的参数量和训练数据集,能够在多种任务中展现出令人瞩目的性能。然而,大模型虽然具备强大的处理能力,但其高昂的训练成本、复杂的部署要求以及巨大的资源消耗,限制了其在某些领域和场景中的普及和应用。 在此背景下,小语言模型应运而生。与大模型相比,小模型体积较小,计算需求低,训练成本显著降低,同时仍能够完成许多复杂的自然语言处理任务。这使得小模型在多个领域展现出了巨大的潜力和价值,成为人工智能领域的一股新兴力量。 (二)研究意义 面对激烈的全球科技竞赛,我国在人工智能发展的路径上面临技术瓶颈和资源挑战。本文旨在通过案例分析和国内外比较,探索我国发展小模型的应用潜力与挑战,具有理论价值与实践意义:一是为小模型的研究与应用提供指导。通过分析国内外小模型的发展模式、性能表现及技术进步,为科研人员和企业提供了清晰的参考框架和有力的方向指引,推动其在实际应用中落地。 二是为政策制定与战略规划提供参考。在高端芯片受制约、全球竞争日益激烈的背景下,探索我国人工智能的发展路径,明确一条符合我国国情、兼顾效率与效益的发展之路,助力引导资源有效配置,优化产业布局。 二、LLM时代小模型的发展现状 (一)小模型定义 大语言模型(LargeLanguageModel,LLM)目前没有正式的定义,但通常是指由具有许多参数(数十亿个权重或更多)的人工神经网络组成,用于处理自然语言信息的大型人工智能模型。这些模型通过在大规模文本数据上进行训练,学习语言的语法、语义及上下文信息,从而能够理解和生成自然语言并执行多种任务。 小语言模型(SmallLanguageModel,SLM)又被称作专业大模型(SpecificLanguageModel,SLM),是指相对于大型语言模型而言,规模较小、参数数量较少,但在特定任务上表现出色的模型。尽管许多学者主要依据模型参数量与所利用训练数据规模来界定与评估何为大语言模型,然而迄今尚未确立一个被广泛认可的临界标准。 (二)小模型与大模型比较 大模型和小模型各自具有不同的特点和优势。表1从模型参数、训练数据、计算资源需求以及应用场景等角度,比较了大模型与小模型的异同。 表1小模型与大模型的比较 大模型 小模型 参数数量 通常在十亿的参数以上 参数数量较少,尚未确立临界标准 训练数据量 需要大量的训练数据来避免过度拟合 由于参数较少,可能需要的训练数据量也相对较少 计算资源需求 需要高性能硬件(如GPU、TPU)、较长的训练时间、更高的计算成本 训练时间和计算成本相对较低,硬件需求也较低 应用场景 用于需要高精度和复杂决策的任务,如自然语言处理、图像识别、复杂的游戏AI等 适合实时应用、资源受限的环境或简单任务,如移动设备上的语音识别、智能家居控制、简单的预测任务等 资料来源:作者整理 从参数数量上来看,大模型通常指具有百万级、千万级甚至亿级参数的神经网络模型,如:GPT-3为175B、ERNIE4.0(百度)为100B等。小模型相对于大模型参数数量较少,如:MobileLLM为125M、Phi-3为3.8B等。 从训练数据量来看,大模型需要大量的训练数据来避免过拟合,ChatGPT-4需要大约13万亿tokens的训练数据。小模型由于参数较少,需要的训练数据量也相对较少,Phi-3的训练数据 仅为3.3万亿tokens。 从计算资源需求来看,大模型需要大量的计算资源,如高性能GPU或TPU。小模型计算资源需求较低,可以在普通的CPU上运行,适合在资源受限的环境中使用。此外,小模型的部署相对简单,适合在各种设备上运行,包括移动设备、嵌入式系统和物联网设备。 从应用场景来看,大模型通常用于需要高精度和复杂决策的任务,如自然语言处理、图像识别、复杂的游戏AI等。小模型更适合实时应用、资源受限的环境或简单任务,如移动设备上的语音识别、智能家居控制、简单的预测任务等。 (三)小模型的发展现状 1.国际巨头深耕通用模型,中国企业聚焦多元垂直应用 表2和表3例举了国内外近期发布的小模型,通过对比发现,像微软和Google这样的美国科技巨头专注于提升模型的通用性,致力于通用人工智能的发展路径。然而,这条赛道对于国内的中小企业来说,既“烧钱”又存在瓶颈,因为打磨出一款高水平的通用大模型需要投入大量的时间和资金。 我国的小模型在垂直领域的发展呈现出多元化的态势。除了以百度、阿里、华为、腾讯等巨头厂商深耕通用基础大模型研发, 更多的企业则根据自身产业生态的特点,开发专业化的垂直领域小模型。这类小模型不仅见效快,而且成本更低,为企业提供了灵活高效的发展路径。 表2国外发布的小模型 模型 发布机构 发布时间 模型参数量 类别 MobileLLM Meta 2024年2月 125M、350M、600M、1B和1.5B 通用 Phi-3 Microsoft 2024年4月 3.8B、7B 通用 Gemma2 Google 2024年6月 9B 通用 SmoILM HuggingFace 2024年7月 135M、360M 通用 Llama3 Groq 2024年7月 8B 通用 GPT-4omini OpenAl 2024年7月 未公布 通用 Mistral&Nvidia NeMo 2024年7月 12B 通用 DCLM Apple 2024年7月 7B 通用 xLAM Salesforce 2024年7月 1.35B和7B 通用 资料来源:作者整理 表3中国发布的小模型 模型 发布机构 发布时间 模型参数量 类别 Cornucopia(聚宝盆) 中国科学院成都计算机应用研究所 2023年5月 7B 金融 QiZhenGPT 浙江大学 2023年6月 6B、7B、13B 医学 TransGPT 北京交通大学 2023年7月 7B 交通 智海-录问 浙江大学、阿里 2023年8月 7B 法律 云、华院计算 智海-三乐 浙江大学、高等教育出版社等 2023年8月 7B 教育 LightGPT 恒生电子 2023年10月 7B 金融 XuanYuan-6B 度小满 2024年3月 6B 金融 DeepSeek-Coder-V2-Lite-Base DeepSeek 2024年6月 16B 代码 TechGPT2.0 东北大学 2024年8月 7B 科研 MiniCPM3.0 面壁智能 2024年9月 4B 通用 资料来源:作者整理 中国的小模型更多地呈现出垂直化、应用化的特点,而国外小模型更多的是通用