热门搜索：

2024年度AI十大趋势报告

信息技术2024-12-14-量子位智库王***

AI智能总结

2024年度十大AI趋势总结

大模型创新

架构优化加速涌现
- 路径一：循环神经网络及其变种
  - RWKV架构通过引入R、W、K、V四个参数，结合循环机制和WKV运算符，实现高效推理。
- 路径二：状态空间模型
  - Mamba架构通过选择性状态空间模型和硬件感知算法，提高长序列处理能力。
- 路径三：层次化卷积模型
  - UniRepLKNet采用大核卷积，提高多模态任务处理能力。
- 路径四：多尺度保持机制模型
  - RetNet通过多尺度衰减率和递归表示，实现高效推理。
- 路径五：液体神经网络模型
  - LFM通过结构化操作单元，实现高效内存使用和多模态处理。
Scaling Law泛化
- 参数量与计算量膨胀
  - GPT-3引领的Scaling Law促使模型性能依赖于规模、数据集和计算量。
  - 2024年，大模型追求更高推理能力，资源向Post-training和推理算力倾斜。
- 万卡集群及高性能网络建设
  - 用于训练的计算量每年增长4-5倍，GPT-4需2.5万张A100 GPU并行训练。
  - 万卡集群和高性能网络是追求极致性能的必要条件。

AGI探索

视频生成与世界模型
- 视频生成从扩散模型出发，推动世界模型从自动驾驶到全领域应用。
- 具身智能和空间智能结合，实现虚拟与现实的无缝连接。

AI应用格局

多领域竞争
- AI助手成为兵家必争之地。
AI+X赋能类产品
- AI+X赋能类产品快速增长，但原生AI爆款难求。
多模态上马
- 多模态产品成为趋势，Agent全面覆盖各类场景。

行业影响

变革生产力与重塑行业生态
- AI技术在各行业的广泛应用，推动生产方式和生态系统的变革。
数据基础与用户需求
- 数据基础决定AI应用的初始速度，用户需求成为加速器。
AI创投
- 投融资马太效应明显，国家队出手频率提升。

关键数据

GPT-3参数量：175B
GPT-4参数量：约1.76万亿
计算量增长：每年4-5倍
万卡集群：由一万张及以上加速卡组成
高性能网络：支持高带宽、低延迟数据传输

结语

2024年的AI发展趋势显示，大模型架构不断创新，规模化训练需求显著，行业应用广泛，技术进步推动生产力变革。

序言从今年起，量⼦位智库做了⼀个改变—— 在过往三年连续围绕整个前沿科技来提供年度科技趋势参考后，今年聚焦在了AI。过去，AI是前沿科技主轴上的⼀⽀核⼼技术。现如今，AI正在吞噬整个世界、整个产业、全部赛道。没错，AI已经完全成为了科技发展主旋律。尽管有诸多类⽐，如⼀开始类⽐互联⽹⾰命，到后来类⽐电⼒（第⼆次⼯业）⾰命，再到现如今——最宏⼤的⼀种说法是：第⼆次地球⽂明⾰命。所以不论如何，可⻅AI正在展开的冲击、带来的影响⼒是如何全⾯⼜深刻，甚⾄⼀度被以科幻的⽅式谈论它。 AI当然不是科幻，AI⾸先是⼀⻔科学，其次是⼀项⼯程，最后正在变成⼀种⼯业。这就意味着AI不仅可以观测、可以学习，还能预测——或者更准确来说，我们就是站在新进展新信息的最前沿，站在产学研交汇地带，把正在从学术研究进⼊产业变⾰程序的技术⽅向，总结并举例说明呈现给所有⼈。在今年，我们还通过更具规模的数据统计，在AI应⽤的创新创业和投资⽅⾯，也提供了结论性参考，希望对整个产业提供第三⽅视⻆下的助益。总之，希望这份年度趋势报告，能够对你在岁末年初了解时代技术进展提供最直接的帮助。⾝处技术⼤航海时代，即便你未能出海探索，也希望你能感知到潮⽔涌动的⽅向。量⼦位智库总裁科技合作伙伴 *以上排名⽆先后顺序目录 2024年度⼗⼤AI趋势 PART1 技术篇趋势⼀⼤模型创新：架构优化加速涌现，融合迭代⼤势所趋/02 趋势⼆ScalingLaw泛化：推理能⼒成皇冠明珠，倒逼计算和数据变⾰趋势三AGI探索：视频⽣成点燃世界模型，空间智能统⼀虚拟和现实 /10 /16 PART2 产品篇趋势四AI应⽤格局：第⼀轮洗牌结束，聚焦20赛道5⼤场景/25 趋势五AI应⽤竞争：多领域竞速运营⼤于技术，AI助⼿兵家必争趋势六AI应⽤增⻓：AI+X赋能类产品⼤⼲快上，原⽣AI爆款难求趋势七AI产品趋势：多模态上⻢，Agent席卷⼀切，⾼度个性化呼之欲出 /35 /45 /50 PART3 ⾏业篇趋势⼋AI智变千⾏百业：左⼿变⾰⽣产⼒，右⼿重塑⾏业⽣态趋势九AI⾏业渗透率：数据基础决定初速度，⽤⼾需求成为加速度趋势⼗AI创投：投融资⻢太效应明显，国家队出⼿频率提升千⾏百业AI优秀落地⽅案推荐 /54 /75 /78 /87 结语 ꢀꢁꢂꢃꢄꢅꢆꢇꢈꢉꢊꢋꢌꢍꢎꢏ⻓ꢐꢑꢒꢓꢔꢃꢁꢕꢀ 1.架构层创新助⼒解决算⼒瓶颈现实问题/02 2.创新混合架构挑战Transformer垄断/02 技术原理—— 1.路径⼀：循环神经⽹络及其变种（以 RWKV 为代表） /03 /05 2.路径⼆：状态空间模型（以Mamba为代表） 3.路径三：层次化卷积模型（以UniRepLKNet为代表） /06 1 TECHNOLOGY 4.路径四：多尺度保持机制模型（以RetNet为代表）/07 5.路径五：液体神经⽹络模型（以LFM为代表）/08 ꢀꢁꢖScalingLawꢗꢌꢈꢘꢙꢚꢛꢜꢝꢞꢟꢠꢐꢡꢢꢣꢤꢥꢦꢧꢨꢩ 技术原理—— 1.AI模型的性能强烈依赖于规模 2.全新的ScalingLaw /10 /13 ꢀꢁꢪAGIꢫꢬꢈꢭꢮꢯꢜꢰꢱꢲꢳꢄꢅꢐꢴꢵꢶꢚꢷꢂꢸꢹꢥ⻓ꢺ 技术原理—— 1.视频⽣成：从扩散模型出发/16 2.世界模型：从⾃动驾驶领域到整个世界/19 3.具⾝智能：回到现实世界，回到产业链/20 0 4.空间智能：连结具⾝智能与空间计算 /22 01⼤模型创新 1. ꢀꢁꢂꢃꢄꢅꢆꢇꢈꢉꢊꢋꢌꢍꢎ⻓ꢏꢐꢑꢒꢓꢂꢔꢕꢖ 架构层创新助⼒解决算⼒瓶颈现实问题 Transformer架构是⽬前应⽤最⼴泛的主流⼤模型架构，⽽⾃注意⼒机制（Self-Attention,SA）则是Transformer架构的核⼼——它允许模型进⾏并⾏计算，在序列中⾮线性地直接捕捉任意两个位置之间的关联权重，⼤幅提⾼模型能⼒上限。但另⼀⽅⾯，这也使模型的算⼒需求、计算复杂性和消耗资源成本都随参数增加呈指数级增⻓，在⼤规模任务中快速触达天花板。 2024年以来，随着⼤模型参数量的⻜速规模化以及训练与部署的深⼊落地，Transformer架构的上述弊端愈发显著，成为助推全球性算⼒紧缺的重要因素，也为⼤模型的端侧落地提出了挑战。为寻求突破，对⼤模型架构的创新性探索逐渐成为不容忽视的趋势。若能突破Transformer在算⼒和数据需求⽅⾯的限制，新架构有望在⾃然语⾔处理和计算机视觉领域引发新⼀轮技术⾰新。 ——明势创投 2.Transformer 创新混合架构挑战垄断⾃2017年AttentionIsAllYouNeed出世提出Transformer架构以来，7年已过。AI⾏业对Transformer的路径依赖引发了越来越多的“过时”争论，体现出⽇渐迫切的架构创新需求。 2023年以来，RWKV和Mamba引起热议，多种新架构加速图：Transformer模型架构，⾕歌、多伦多⼤学涌现，世界范围内的学者从多个⽅向努⼒，试图在保留 Transformer架构优势的基础上创新性引⼊其他架构特点，解决算⼒开销问题，Transformer的绝对统治地位得到挑战，兼采众家之⻓的混合模型（Hybrid）已成未来趋势。 Transformer架构、Next-TokenPrediction和ScalingLaw是当前⼤模型的算法基⽯，但这些领域也越来越需要新的突破，以构建强⼤且⾼效的新⼀代基础⼤模型。强⼤意味着卓越的性能、泛化能⼒和抵抗幻觉能⼒；⾼效则指低成本、⾼效率和低能耗。只有具备这两⼤特质，⼈⼯智能才能真正成为⽔和电⼀样的基础设施。 ——微软亚洲研究院 02 01 Hyena2023.04 ⼤模型创新 MicYh.Fauel,PTroilDi,aSote,fSatneophMeanssBaarcoclui,sE,rYicosNhguuayBenen,Dgiaon,ielUSntiavnefrosritdy, Montréal HierarchyStefanoErmon,ChristopherRéUnMivielarsaintédde RWKV2023.05BoPeng,EricAlcaide,QuentinAnthony等RWKV元始智能 RetNet2023.07 YYuutaqoinSguXnia,L,iJDilong,XSuhea,oJhiaannyHonuganWga,nSgh,uFmurinugWMeai, 微软亚洲研究院 Hou,MaxTegmark , KAN2024.04RueZhimlei,nJgaLmiue,sYHixaulvaenrWsoann,gM,aSrainchSinolVjaacidˇyica,,TFhaobmiaansY. NMoITrt,hCeaaltsetecrhn,UniIvAeIrFsIity, TimeMixer2024.05 HSuhaiykuunWLaunog,,LHinaitxauoWMua,,XJiaamomesinYg.ZShhai,nTge,nJuggneZHhuo,u 蚂蚁集团清华⼤学阿布扎⽐ Mamba-2 2024.05 AlbertGu,TriDao 普林斯顿、卡内基梅隆⼤学 MFalmcobna 2024.08 JCinhgawhediZ,uYou,MneaskBsiemlkVaedlaik,aGnuoilvla,RuhmaeieKmu,nIslycahsTInenchonvaotloiogny Institute(TII) LFM 2024.09 RaminHasani,MathDiaansiLeelachRnuesr,AlexanderAmini, LiquidAI 这些新兴⼤模型架构不仅在性能上可以与Transformer模型竞争，还在内存效率和可扩展性上展现出优势。梅花创投杨颜媛表⽰，部分新架构更易于进⾏并⾏计算，能够充分利⽤现代硬件的并⾏计算能⼒，提⾼训练和推理的速度。它们的出现，为AI领域带来了新的活⼒，也为未来的研究和应⽤开辟了新的可能性。随着这些模型的不断发展和优化，我们有理由相信，⼤模型创新架构将在AI未来发展中扮演越来越重要的⻆⾊。 1.RWKV ꢀꢁꢂꢃ 路径⼀：循环神经⽹络及其变种（以为代表）循环神经⽹络（RNN）通过循环⽅式处理序列数据，能够对过去的输⼊保留记忆，但存在难以并⾏化的问题， Transformer架构的诞⽣最早就是为弥补这⼀缺陷。但仍有很多学者认为，RNN的潜⼒还远未达到天花板，在Transformer架构越来越受到诟病的今天，RNN凭借其独特优势再度获得了越来越多学者的探索创新。⽬前这⼀路径的架构创新主要使⽤循环神经⽹络（RNN）替代⾃注意⼒机制，通过循环⽅式处理序列数据，使模型对过去的输⼊保留记忆。 03 01 ꢗꢘꢙꢚRWKV「联想记忆法」区别于Transformer的Query-Key-Value参数，RWKV架构由四个重要参数组成：R、W、K、V，除了可训练的权重参数w（Weight），RWKV还使⽤r（Receptance）参数来控制对信息的接受程度。 RWKV与Transformer架构的本质区别在于背后的记忆机制，与Transofrmer的内存寻址机制相⽐，RWKV更像是⼀种联想记忆⽅法。⼤模型创新 Transformer=AddressingMemory寻址记忆：RWKV=AssociativeMemory联想记忆：我相信RNN是正确的，但现在的RNN远远没有做到它真正的⽔平，它的上限其实是⾮常⾼的，现在我们还远远没有到那个地步，还有很多空间。因为RNN更接近⼈脑和宇宙的运作⽅式。例如，在物理上，宇宙的下⼀状态只与上⼀状态有关，这是所谓的locality和causality，量⼦场论遵循这⼀原则。 ——彭博，RWKV作者（1）RWKV核⼼思想 RWKV（RecurrentWeightedKey-Value）模型核⼼思想是将RNN的循环结构与Transformer的并⾏计算能⼒相结合，在实现⾼效推理、节省存储开销的同时保持模型的⾼性能。这使得RWKV可以“像Transformer⼀样”进⾏并⾏训练，同时在推理阶段可以以递归形式进⾏解码，“像RNN⼀样”推理。 2RWKV （）的创新点 •TokenShift：tokenshift在时间混合计算中，通过对当前和前⼀输⼊的线性组合进⾏线性投影，⽣成⽤于时间混合的向量；在通道混合计算中，也采⽤类似的⽅法⽣成通道混合输⼊向量 •WKV运算符：WKV运算符利⽤时间衰减因⼦对权重进⾏更新，使得每个时间步的输出依赖于之前所有时间步的信息，从⽽保留了RNN的记忆能⼒，这种设计使得RWKV模型在保持较低计算复杂度的同时，能有效捕捉序列数据中的⻓期依赖关系 04 01⼤模型创新 •输出⻔控：RWKV通过在时间混合和通道混合块中使⽤sigmoid函数对接收向量进⾏⻔控，控制信息的流动和记忆更新，确保在每个时间步只传递和处理相关信息，从⽽减少梯度消失和爆炸问题，增强了模型的稳定性和训练效率（3）RWKV的发展与应⽤ RWKV⾃提出以来已经经历了多次版本迭代，最新版本 RWKV-7预览版已在今年9⽉正式发布。 2.路径⼆：状态空间模型（以Mamba为代表）状态空间模型可以看作是循环神经⽹络（RNN）和卷积神经⽹络（CNN）的融合，由其发展⽽来的结构化的状态空间序列模型（SSM）是另⼀颇具潜⼒的⼤模型创新架构代表。这类模型利⽤状态空间处理⻓序列问题，通过循环或卷积运算实现⾼效计算，使得计算开销与序列⻓度呈线性或近线性关系，从⽽显著降低计算成本。（1）Mamba⾸次提出图：RWKV内部架构图，彭博等 2023年12⽉，Mamba架构⾸次被提出，引⼊了选择性状态空间模型，实现了对输⼊数据的有选择性处理。这种选择机制使得模型能够根据当前输⼊的token决定哪些信息是重要的，忽略不相关的信息，提升模型处理⻓序

点击免费查看完整报告