⼤模型评测|2024/03 2024年中国⼤模型能⼒评测 AI变⾰⾏业创新发展 (摘要版) 2024ChinaLargeLanguageModelEvaluatoinAnalysisResult 评测| ⼈⼯智能系列研究 OPPORTUNITYGROWTHINVESTMENTINSIGHTS 报告提供的任何内容(包括但不限于数据、⽂字、图表、图像等)均系头豹研究院独有的⾼度机密性⽂件(在报告中另 ⾏标明�处者除外)。未经头豹研究院事先书⾯许可,任何⼈不得以任何⽅式擅⾃复制、再造、传播、�版、引⽤、改编、汇编本报告内容,若有违反上述约定的⾏为发⽣,头豹研究院保留采取法律措施、追究相关⼈员责任的权利。头豹研究院开展的所有商业活动均使⽤“头豹研究院”或“头豹”的商号、商标,头豹研究院⽆任何前述名称之外的其他分⽀机构 1 ,也未授权或聘⽤其他任何第三⽅代表头豹研究院开展商业活动。 头豹研究院 ⼤模型评测|2024/03 ⼤模型评测|2024/03 研究⽬的与摘要 随着AI⼤模型底层技术的不断进步,其对市场的影响⼒⽇益增强,引发了持续的热潮。截⾄2024年2⽉,中国已经涌现�上百个的AI⼤模型,其中优质的基础⼤模型数量也已达到数⼗个,标志着“百模⼤战”时代的正式来临。在这⼀背景下,本次评测致⼒于全⾯梳理当前产业的最新发展态势和模型的竞争格局,深⼊探索⼤模型的能⼒边界,为社会各界提供更清晰的认知,以了解⼤模型的巨⼤潜⼒及其在实际应⽤中的价值体现。 研究区域范围:中国 研究周期:2023-2024年研究主题:⼤模型评测 此研究将会回答的关键问题: ①产业发展现状:中国⼤模型产业发展现状 ②评测结果:中国⼤模型的综合表现排名 ③模型能⼒:中国⼤模型在不同能⼒维度的表现 01⼤模型热度持续攀升,中国进⼊“百模争锋”的时代 ⾃2022年12⽉GPT3.5发布以来,⼤模型在全球范围内引发了前所未有的关注与热潮。其所展现�的巨⼤潜⼒,不仅推动了⼈⼯智能从学术研究向实际应⽤领域的跨越,更引领了⾏业的⾰新与变⾰。截⾄2024 年2⽉,全球范围内已有超百款⼤模型问世,涵盖开源、闭源、⼆次开发及微调等多种类型,且发布机构遍布各⼤互联⽹科技巨头、云计算领军企业、综合⼈⼯智能公司、智能设备制造商以及数字基础设施提供商等。 02本次评测涵盖国际和中国领先且率先对公众开放的⼤模型 本次评测的核⼼⽬标在于深⼊剖析⼤模型产业的当前发展状况及其对社会产⽣的综合性影响。评测范围覆盖了市场上对公众开放的所有国际及中国领先的商业⼤模型。为确保评测结果的客观性与公正性,本次评测采⽤了经过严格筛选的题库以及专业的评测⽅法,对⼤模型的能⼒范围进⾏了全⾯⽽深⼊的探索。 03本次评测通过两⼤衡量标准和五⼤细分维度全⾯探索⼤模型的能⼒边界 本次评测以⽤户使⽤体验和实际使⽤价值为衡量标准,通过五⼤细分维度——数理科学、语⾔能⼒、道德责任、⾏业能⼒及综合能⼒,深⼊探索了⼤模型的能⼒边界。为确保评估的全⾯性和精准性,本次评 测进⼀步将五⼤维度细化为⻛险信息识别、逻辑推理、类⽐迁移、⻆⾊扮演等多个⼆级维度,构建了⼀个科学⽽全⾯的评估体系。评测不仅关注⼤模型的通⽤基础能⼒,即AI⾃然语⾔处理的基⽯,更重视其专业应⽤能⼒在实际使⽤场景中的表现。这两⼤核⼼能⼒的结合,为⽤户提供坚实可靠的应⽤体验基础。 04当前中国领先⼤模型能⼒略逊于国际,但差距在逐步缩⼩ 根据2024年⼤模型的综合评测数据分析,当前国际领先的⼤模型在性能指标上依然占据优势,相较于中国的⼤模型有⼀定的领先地位。然⽽,值得⼀提的是,中国在⼤模型研发领域的实⼒正稳步增强,与国际先进⽔平之间的差距正逐渐缩⼩。近年来,得益于国家对⼈⼯智能领域的⾼度重视和持续投⼊,中国在⼤模型的技术创新、算法优化以及数据处理能⼒等⽅⾯均取得了令⼈瞩⽬的成果。在本次评测中,部分中国⼤模型的表现已经超越了国际⼤模型的平均⽔平,与半年前相⽐,与业界领先的GPT-4、Gemini 等模型的性能差距已⼤幅缩减,展现�了中国⼤模型强劲的发展势头。2 1 3 2 4 4 Chapter1 ⼤模型 ⾏业综述 ⼤模型利⽤亿级参数和Transformer架构学习⽂本数据,精准捕捉语⾔模式。Transformer⾃注意⼒机制优化模型的语境理解,提升了⾃然语⾔处理任务表现,其并⾏化和灵活性保证处理⼤规模数据的效率 在⼤模型领域,Decoder-only架构凭借其训练效率和处理⽂本⽣成的能⼒⽽占据优势,⽽Encoder-Decoder架构则在需要精确处理复杂输⼊输�关系的任务中展现�其独特优越性 ⼤模型是继⼯业⾰命和互联⽹⾰命之后的⼜⼀重⼤创新,将在社会劳动⼒提升、产业发展加速以及科技突破三个关键领域中,显著增强实体产业的发展能⼒。进⼀步提升社会产业价值,提⾼⽣产效率和能效 ⼤模型快速发展助⼒千⾏百业,⼴泛应⽤于⾦融、教育、医疗等领域,提升服务效率和质量;与此同时,中国政府通过政策⽀持推动⼤模型技术的快速发展,助⼒国家数字化战略 www.leadleo.com 400-072-5588 •⼤模型快速发展助⼒千⾏百业,⼴泛应⽤于⾦融、教育、医疗等领域,提升服务效率和质量;与此同时,中国政府通过政策⽀持推动⼤模型技术的快速发展,助⼒国家数字化战略 中国⼤模型⾏业综述——发展现状 ⾏业⼤模型发展现状分析 医疗 政务 ⾦融 互联⽹科技 ⼯业 法律 电商 传媒 教育 其他传统产业 ⾼ 技术成熟度 低市场增⻓⼒⾼ ⼤模型展现�强⼤的通⽤性和跨领域能⼒,助⼒千⾏百业 近年来,随着深度学习、⾃然语⾔处理、计算机视觉等AI技术的⻜速进步,⼤模型的研发取得显著成果。百度⽂⼼、商汤⽇⽇新·商量、腾讯混元以及华为盘古等⼤规模预训练模型在各⾏业中⼴泛应⽤,展现�强⼤的语⾔理解和⽣成能⼒,以及跨领域的泛化能⼒。如今,⼤模型已经渗透到各⾏各业,如⾦融、教育、医疗、电商、传媒、法律等领域,被⽤于智能客服、智能写作、⾃动摘要、⽂本⽣成、知识问答、个性化推荐等多个应⽤场景,有效提升⾏业服务效率和服务质量。 与此同时,中国政府正从顶层设计到具体实施全⾯布局,通过制定和执⾏⼀系列的政策来促进⼈⼯智能⼤模型技术的快速发展,并将其转化为实际⽣产⼒,助⼒国家数字化战略的推进,⼤模型⾏业发展向好。 ⾏业⼤模型核⼼政策分析 政策名称 颁布⽇期 颁布主体 主要内容及影响 《⽣成式⼈⼯智能服务管理暂⾏办法》 2023-07 国家⽹信办等七部⻔ 明确⽣成式⼈⼯智能“提供者”内容⽣产、数据保护、隐私安全等⽅⾯的法定责任及法律依据,确⽴⼈⼯智能产品的安全评估规定及管理办法 《关于⽀持建设新⼀代⼈⼯智能示范应⽤场景的通知》 2022-08 科技部 推动应⽤场景建设、增强技术研发动⼒、提升⾏业整体⽔平和促进跨⾏业合作等,有助于促进⼈⼯智能写作⾏业的进⼀步发展和创新 《关于加快场景创新以⼈⼯智能⾼⽔平应⽤促进经济⾼质量发展的指导意⻅》 2022-07 科技部等六部⻔ 推动场景创新、提升创新能⼒、加速技术攻关和产业培育以及探索新模式和新路径等⽅向,有助于促进⼈⼯智能写作⾏业的快速发展,并推动经济⾼质量发展 来源:国家⽹信办,科技部,头豹研究院 中国⼤模型⼈才需求总数 现有:40%缺少:60% •商业化压⼒⼤:中国科技企业的市场导向和商业化压⼒常使得⼤⼚技术部⻔在追求KPI的同时, 难以专注于前沿技术的研发。 •⾼精尖国家流失情况严重:超过70%的中国优秀本科⽣选择�国深造,⽽其中超过60%的博⼠毕业⽣选择在海外⼯作,导致⻓期的优秀⼈才流失。 •中国⼤模型的发展受专业⼈才、⾼质量数据和计算资源短缺的限制。需在提升技术天花板能⼒的同时加强全⺠⼈⼯智能教育,以提⾼整体认知和应⽤能⼒,促进⼤模型在中国的全⾯发展 中国⼤模型⾏业综述——发展制约因素 现有:30% 中国⼤模型算⼒需求总量 缺少:70% •与国际领先技术有差距:中国的AI芯⽚产业在技术创新、产业规模和全球市场影响⼒⽅⾯相 ⽐国际领先企业还存在⼀定差距,单芯⽚性能差距在30倍以上。 •受国际政治格局制裁:芯⽚算⼒作为⼤模型性能和质量的关键因素,随着这些模型⽇益成为国际竞争的重要领域,国际社会已暂停向中国�⼝顶尖AI芯⽚。 现有:20% 中国⼤模型数据需求总量 缺少:80% •⾏业⾼精数据短缺:中国在⾼质量数据获取⽅⾯⾯临挑战,主要由于缺乏完善的数据法规、⾏业内固有的竞争性保密性,以及对开源合作⽂化的不⾜。 •中⽂语料短缺:相较于英⽂,中⽂⾼质量开源数据⾮常少,特别是在构建通⽤领域⼤模型的百 科类、问答类、图书贡献、学术论⽂、报告杂志等⾼质量内容。 相较于国际领先 ⽔准 ,中国整体在 ⼈ ⼯智能意识形态的匮乏 ⼤模型发展制约因素 中国⼤模型的发展受专业⼈才、⾼质量数据和计算资源短缺的限制,需在提升技术能⼒的同时加强全⺠⼈⼯智能教育,以提⾼整体认知和应⽤能⼒,促进模型的全⾯发展 中国⼤模型的发展受限于专业⼈才短缺、⾼质量数据获取难和计算资源不⾜,这反映�在⼈⼯智能领域的意识形态差异。中国拥有13亿⼈⼝,但真正能够理解并推动⼈⼯智能发展的⼈才⽐例不⾜0.01%。在⼈⼯智能的理解和应⽤上,技术⼈员通常缺乏商业洞察,执⾏层⾯的⼈员不够了解技术原理,⽽领导层往往缺乏⾜够的技术理解,这些因素共同导致了发展的缓慢。因此,中国在推进⼤模型发展的过程中,除了提升技术上限外,还需要重视提⾼全⺠的⼈⼯智能教育 ⽔平,提升整体认知和应⽤能⼒,这对于⼤模型的全⾯发展⾄关重要。 •2024年,在技术端,⼤模型的技术发展将趋向多功能与⼩型化。在产业段,⾃主研发AI芯⽚、深化数据标准、采⽤“套壳”微调及注重AI伦理,将共同促进⼤模型的健康发展和⾏业规范化 中国⼤模型⾏业综述——发展趋势 ⼤模型2024年的发展趋势 技术端产业端 模型参数更⼤ 模型将拥有更多参数,以提⾼处理复杂问题的能⼒和精度。 ⼤模型⼩型化 模型通过技术创新实现⼩型化,适应边缘计算和移动设备。 模型架构⼤⼀统 模型架构趋向统⼀化,提⾼不同模型间的兼容性和效率。 多模态混合化 模型融合语⾔、图像、声⾳等数据,实现跨媒体理解和交互。 国产AI计算芯⽚⾃研 国产AI芯⽚⾃主研发加速,增强中国在AI领域的竞争⼒。 深化数据产权标准 加强数据产权和隐私保护标准,保护个⼈隐私权益。 “套壳”微调 应⽤通过“套壳”微调,更精准地满⾜特定⾏业和场景需求。 负责任的⼈⼯智能 增加对负责任AI的研究和实践,确保技术发展与社会规范相符。 在2024年,⼤模型的技术发展将趋向多功能与⼩型化,同时产业端将强调⾃主研发和⾏业标准化,⽽伦理责任和数据标准规范将成为持续发展的关键 从技术端,⼤模型的发展趋势在2024年将会向着多功能,⼩型化的⽅向发展: 1)模型整合统⼀:未来的技术演进⽅向是实现⼤模型底层框架的整合与标准化,从多样的架构 (如双编码器、单边解码等)转向统⼀的、效率最优化的开源底层框架,提升模型的通⽤性和可维护性。2)参数规模扩展:为确保模型质量和性能,未来的⼤模型将采⽤更深层的⽹络结构和更庞⼤的数据集进⾏预训练,尤其在数据量和参数量上将迎来显著跃升。3)多模态融合:⼤模型将逐渐融⼊图⽚、⾳频、视频等多种模态信息,实现跨模态的交互与理解,从⽽拓宽其应 ⽤场景和实⽤价值。4)⼤模型⼩模型化:在产业应⽤层⾯,结合底层基础⼤模型和针对特定⾏业的精简数据微调,将训练�更为实⽤、更易于产业落地的⼩型化⼤模型。 从产业端,⼤模型的发展趋势在2024年将会向着⾃研和⾏业规范标准化⽅向发展: 1)国产AI芯⽚⾃主研发:为确保中国⼤模型的⻓远发展和避免外部制裁⻛险,国内AI计算芯⽚的⾃主研发将成为关键战略⽅向。2)数据产权标准深化:优化和完善现有数据标准和规范,是推动⼤模型“燃料”质量提升和数量增⻓的重要驱动⼒,在2024年将作为产业发展的⾸要任务。3)“套壳”微调策略:为满⾜产业实际需求并适应中⼩企业的发展特点,“套壳”微调