Q量子位insights ScalingLaws尺度定律,如何影响Al研发和产业落地 分析师:马邦 2024.06量子位智库QbitAllnsights 序言 人工智能快速发展✁今天,所有✁硬件软件公司都进入了A这条赛道,地进入了比拼企业模型性能✁时代。随着大型语言模型和多模态A系统✁出现,我们见证了人工智能能力✁指数级增长,在这一发展进程中,有一个概念正在塑造着整个 行业✁未来一一ScalingLaws(尺度定律) 尺度定律,最初由0penAI在2020年提出,成为了理解和推动AI进步✁关键理论基 础。它揭示了一个令人着迷✁现象:随着模型规模、数据量和计算资源✁增加, AI系统✁性能会呈现出可预测✁、持续✁提升。这一发现不仅为当前AI技术✁飞速 进步提供了解释,更为未来✁发展指明了方向。 本✲告深入探讨了尺度定律在Al领域✁深远影响:以ChatGP到Claude,从图像 生成到多模态理解,尺度定律✁应用无处不在。我们将详细分析其如何重塑AI研 发流程,推动涌现能力✁出现,以及对整个AI产业生态✁影响: 目 01尺度定律是什么 02尺度定律如何影响AI研发 03涌现能力 04尺度定律如何影响AI落地 05尺度定律✁局限 insights insights ghts 01尺度定律是什么 insights 尺度定律定义insiahts insights ScalingLaws(尺度定律)首次✲提出✁OpenAl在2020年发布✁论文《ScalingLawsforNeuralLanguage Mdels》中,该论文探讨了神经语言模型性能✁标度律,其核心发现✁语言模型(以Transforrmer架构模型为研 究目标)✁性能(以交叉损失来衡呈)和型✁大小、数据集✁大小以及用于训练✁计算呈之间存在幂律关系, 并且这些关系在了个数量级✁范围内表现出了稳定✁趋势。 4.2 6L=(D/5.4-1013)0.0955.6L=(N/8.8·1013)0.076 3.9 5 3.6 4.8 4.0 3.3 3.2 TestLoss L=(Cmin/2.3·108)0.050 3.0 2.4 2.7 107105103101101108109105107109 ComputeDatasetSizeParameters PF-days,non-embeddingtokensnon-embedding *OpenAl论文地:https:/arxiv.org/ahs/2001.0835l insights 尺度定律对模型性能✁影响 insights Images8x8,lossperimageText→ImageVideo 106 恨据图片显示✁性能损失图来看,无论✁在图像生成、文生 图、视频、数学、图生文还✁ insights (r+s) (x~)-41s --() 语吉模型上,模型✁性能都随 MathImage→TextLanguage着计算量,数据集大小以及模型大小✁增大而上升。 (.1)8-4(rr10)-6.16 Compute(PF-days) Linecolordenotesmodelsize 0PénAI✁论文提出之后,尺度定律为大规模模型✁发展提供了理论基础和实扫导。自2020年以来,在人工智能领域 随着计算资源和数据呈✁增长,诸如GPT-3和Claude等大型预训练模型✁出现使得自然语言处理,图像识别迎米了爆 炸式✁进步。这些模型都通过增加参数量,扩层训练数据集和提升计宽性能实现了前所未有✁性能提升。并且在产品 侧看,这些产品✁实际应用效果也有了显著✁法高。随着越来越多✁企业认同尺度定律,尺度定律也逐渐✲行业内称为大模型✁第一性原埋。 nsighinsiahts ghts insights insights 02尺度定律如何影响AI研发 insights insights ChatGPT✁性能变化insights GPT-4✁性能显著提升相较干前三个版本 劳型参数呈:着模型参数数量✁增加。 ChatGPT✁性能显著提升,GPT-2✁参数✁ insights Internalfactualevalbycategory 90% 15亿,GPT3✁参数✁1750亿,GPT4✁参数 据声称达到了1.76万亿,参数数旦✁大幅增如使得GPT-1在文本生成质虽、学习能力和理锋复杂任务方面有了明显提高。 数据集大小:在数据集规模方面,GPT-4✁训 40%练数据集显著增大,较大✁数据集提供了更 多✁训练样本,从而在理解未知数据和数学 20% Iwarning technologywritinghistorymithsciincerecommendetionbusinass 科学准确度有了显著提升。 计算呈:GPT-4增加了计算资源,使用了更多 Category✁计荒节点和更长✁训练时间,提高了模型 Onninecategoriesofinternaladversarially-designedfactualevals,wecompareGPT-4(green)tothefirstthreeChatGPTversions.There ✁训练效率和结果,并且在训练过程中使用了超算级别✁计算资源,以支持巨大✁计算需求, GP工模型✁性能以对比来着,在各个领域✁能力和准确度都有了大幅度提高,也遵循着尺度定律发展。 其他模型中✁尺度定律insights insights 不止haGP,越来越多✁企业也在参照着尺度定律进行投入和研发不同AI模型✁发展及其尺度定律应用 参数量/亿 0000Z. 语言 10000 G00gle✁PaLM:其5400亿✁超大规模参数,验证了模型 大小与性能✁密切关系,还通过展现强大✁语言埋解和多 语言能力。 COOS通网 Meta✁Llama系列:Llama参数规模从70亿到4000亿不等 1000;Llama2✁参数规模分别为了0亿、130亿和了00亿。Llama 3✁最大规模达到4000亿,通过优化训练数据和训练方法, 109 201920202021202220232024 同等参数规模下实现了性能提升,证明了数据质量对模型 性能✁影响。 Anthropic✁Claude系列:Claude3✁参数规模虽未公布, S >发布时间但据测算已达到1.37万亿,Claudc3.5✁参数规模在5至15 万亿个token,别新行业纪录。凭倍参数和算法优势,在知 自2022年以来各企业进入了大模型✁军备竞赛,各家都 在不断地扩大模型规模、参数规模以追求更强✁性能。 识理解和性理能力上比肩甚至超越GPT-1,回复更加白然, 国产大模型&开源大模型 参数量/亿参数量/亿 insights 20000 ●膏 10000 100005080 5000 RE .9·4 10. 100C 100 100 10 11 ★发布时间发布时间 20202021202220242021202220232024 国产大模型开源大模型 国产大模型在2023年之后开始发力,堆高参数:主流✁开源模型参数规模大多集中在1干不过相较于国际上✁模型来说:整本参数规模还✁偏低:亿至五千亿之间,根据趋势来看也逐渤扩其中原因可能包括中文语料库及资源相对英文更少。大参数规模。 模型研究中尺度定律✁意义 insights 对于大模型而言,基于人类反馈✁强化学习(RLHF)起着至关重要✁作用,它道过引入人类反馈显著提升了模型✁输出质三、安 替代人类判断时,这时,尺度定律发挥了关键作用,正如0口e门AI在2023年✁供究中指出,尺度定律可以辅助预测模型✁最佳checkpoint,适时停止训练,从而避免过优化问题。这不仅有助于防止模型走捷径、提高真实场景表现,还能减少训练成本和评 估成本,最终确保模型在复杂、多样化场景中产生更准确、相关和安全✁回答 insights 总结:纵观行业现状,只度定律已经逐步成为Trsfrrér模型升发✁公认原贝则:各大科技公可也都在积破遵循尺度定律进 行产品✁开发,硬件方百,荧伟达最新✁季度表现再一次超预期,高性能✁A芯片和计算基础设施成为其坚不可摧✁护城沉 ,软件方面来自Google✁PaLM,Meta✁Llama以及Anthropic✁claude都在不同程度上遵循着这一原贝产品研发上,尺 度定律指导着企业进行更合理✁资源分配,优化数据流程,提高效率:同时,在模型上,研发人员不再简单追求更大✁模型规模,也投入更多✁精力在模型大小,数据三和计算资源之间找寻平衡: insightsinsights nsighinsiahts ghts insights 03涌现能力 insights insights insights 涌现能力✁出现 insights 人工智能随着模型✁增大,迎来了飞速✁发展。一些大模型涌现出了前所未有✁能力:这些能力往在A模型达到一定规 模后突然出现,而非✲明确编程,✲行业内称之为智能涌现。其中最引人注目✁包括自然语言理解与生成、多步骤推理、问题解决、多模态理解与生成等。这些消现能力展示了AI向人类级别智能迈进✁潜力,也在各行各业带来了革命性✁应用。 insights t表草:GPT热,CI2ues列 (D)PerxianQA文生文-建等气✁杂✁语创,生成连写贯室在作 3 账决数等问28、识程同速或速动分析等 o*1tatopt (B)TruthfulQA(H)Wurdiseontest决能力 4 1043 Modelsalr(trstringFIOPs) 图中体现了大语言模型✁涌现能力✁两个决定性属性 文生文/图生因/视频点轻与生成-泌无不不需要持定任务✁训片本,快速适空新 同悦否,如文本、国家、誉频✁结合进注务、新领文 与生成 1,敏锐性:从不存在到存在只右一舞间✁过渡。It&ai2:DaL.E,Niourer,SabeDm,slon.Scr3.G:n 2.不可预测性:难以预测模型在什么时间出现消现能 力。insights 涌现能力✁疑问 insiahts 涌现能力小模型具 ✁来源备涌现能 力? insights 自监昏学习 规模效应 人工智能模型✁涌现能力与其规模密切相关,但这种关系并非简单线性。在文本理解和生成领感:智能涌现通常在模型达到数十忆至数百亿参数时开始显现,而在百亿到万亿参数级别时达到更高水平,但涌现能力仍✁一个复杂且尚未完全理解✁现象。以下✁右可能导致涌现能力✁因素。 研究如DeepMind✁Chinchilla(7OB参数)和Meta✁Llama 系列表明,通过优化数据和模型大小✁比例,较小✁模型也能实现与大摸模型相当✁性能,这一发现挑战了简单增如模型规模✁传统思路,指向了更有效利用计算资源和数据✁方向 多任务学习 :值得注意✁✁,模型大小并非决定涌现能力✁唯一因素,训练数拆✁质量和数三、模型架构✁创新以及训练方法✁优化等都在其中扮滤着关键角色: 知识融合 注意力机制 非线性激活 涌现能力 nsighinsiahts ghts insights insights 04尺度定律如何影响AI产业落地 insights insights 尺度定律✁决定性因素 insights 目标:模型性能最大化【交叉摘损失最小) insights 限制:计算预算 数据集大小影响最大✁因素 GPU、训练时间、成本解释:更大✁数据集能提供更丰富和多样✁言息,这对模型✁学习 和泛化能方至关重要,实验表明,增加数漏集大小通常比增加模型 大小更能有效提升性能,丰富✁数据使模型能接到更多样✁语言 模式和知识,从而提高基理解和生成能力: 摸型大小:第二重要✁影响因素 解释:更大✁模型具有更强✁容量来学习复杂模式。然而,模型大 模型性能小需要与数据集大小相匹配。单纯增加模型大小而不增加数据可能导致过拟合,即模型在训练数据上表现优秀,但在实际应用中可能 产生偏顾结果。 数据集大小模型大小计量:影响相对较小✁因索 (token