您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[InfoQ研究中心]:大语言模型能力测评报告 - 发现报告
当前位置:首页/行业研究/报告详情/

大语言模型能力测评报告

AI智能总结
查看更多
大语言模型能力测评报告

大模型综合能力 测评报告2024 1 2 ⼤模型市场发展洞察 2023年,全球⼤模型市场进⼊爆发阶段 ⼤模型诞⽣阶段⼤模型探索阶段⼤模型爆发阶段 2017-2018年2019-2021年2022-2023年 在诞⽣阶段,以Transformer为代表的全新神经⽹络架构,奠定了⼤模型的算法架构基础,使⼤模型技术的性能得到了显著提升。 2017 •6.12⾕歌推出⽤于处理⾃然语⾔任务的Transformer神经⽹络架构 在探索期,基于⼈类反馈的强化学习 (RHLF)、代码预训练、指令微调等开始出现,被⽤于进⼀步提⾼推理能⼒和任务泛化。 2019 •3.16百度推出可以准确理解语义的ERNIE1.0 •8.21OpenAI发布GPT-2并部分开源 •10.11⾕歌推出BERT模型的两个新版本 在爆发期,⼤数据、⼤算⼒和⼤算法完美结合,具备了多模态理解与多类型内容⽣成能⼒。 2022 •11.30OpenAI推出ChatGPT 2023 2018 •6.11OpenAI发布GPT-1 •11.22⾕歌推出BERT RoBERTa和XLNet 2020 •11.5OpenAI发布120亿参数图像版GPT-3 2021 •1.16OpenAI推出能实现⽂本⽣成图像的DALL-E模型 •4.25华为正式发布盘古⼤模型 •8.10OpenAI推出Codex •2.7⾕歌发布Bard以应对ChatGPT •2.20复旦团队发布MOSS •2.23微软基于ChatGPT发布NewBing •2.25FaceBook发布LLaMA-13B •3.14OpenAI发布GPT-4并实现图像识别 •3.16百度发布⽂⼼⼀⾔ •3.17微软宣布将GPT-4接⼊Office全家桶 •4.10昆仑万维发布天⼯3.5 •4.11阿⾥云发布通义千问 •5⽉百度发布⽂⼼⼤模型3.5 •5.6科⼤讯⻜发布认知⼤模型 •5.11⾕歌更新Bard并推出PaLM2模型 •5.24微软宣布Windows系统全⽅位集成Copilot 2023年中央及地⽅政府积极制定政策⿎励和规范⼤模型产业发展 2023年,中央及地⽅围绕基础设施、算法、算⼒、数据等领域出台多项政策,坚持发展和安全并重、促进创新和依法治理相结合的原则, ⿎励和规范作为硬科技的AI⼤模型产业发展。 序号 时间 ⽂件名 主要内容 1 2023年7⽉ 《⽣成式⼈⼯智能服务管理暂⾏办法》 明确了⽣成式⼈⼯智能“提供者”内容⽣产、数据保护、隐私安全等⽅⾯的法定责任及法律依据,确⽴了⼈⼯智能产品的安全评估规定及管理办法。 2 2023年7⽉ 《上海市推动⼈⼯智能⼤模型创新发展的若⼲措施》 推动上海⼤模型创新发展,营造通⽤⼈⼯智能创新⽣态,加快打造世界级⼈⼯智能产业集群。 3 2023年8⽉ 《电⼦信息制造业2023⼀2024年稳增⻓⾏动⽅案》 ⿎励加⼤数据基础设施和⼈⼯智能基础设施建设,满⾜⼈⼯智能、⼤模型应⽤需求。 4 2023年10⽉ 《⼈形机器⼈创新发展指导意⻅》 到2025年,⼈形机器⼈创新体系初步建⽴,“⼤脑、⼩脑、肢体”等⼀批关键技术取得突破,确保核⼼部组件安全有效供给,开发基于⼈⼯智能⼤模型的⼈形机器⼈“⼤脑”。 5 2023年11⽉ 《北京市⼈⼯智能⾏业⼤模型创新应⽤⽩⽪书(2023年)》 从⼤模型全球发展态势、国内外⾏业应⽤概述、北京应⽤情况和发展建议等⽅⾯进⾏了系统分析和阐述,旨在进⼀步推动⼤模型应⽤落地,展示北京市⼤模型应⽤成果,促进⼤模型价值传播和供需对接。 6 2023年11⽉ ⼴东省《关于加快建设通⽤⼈⼯智能产业创新引领地的实施意⻅》 22条举措打造国家通⽤⼈⼯智能产业创新引领地。 7 2023年12⽉ 《关于加快推进视听电⼦产业⾼质量发展的指导意⻅》 ⽀持⻣⼲企业做⼤做强,⽀持⼈⼯智能企业研发视听应⽤⼤模型。 8 2023年12⽉ 《“数据要素x”三年⾏动计划(2024—2026年)(征求意⻅稿)》 以科学数据⽀持⼤模型开发,深⼊挖掘包含科技⽂献在内的各类科学数据,通过细粒度的知识抽取,构建科学知识资源底座,建设⾼质量语料稿库和基础科学数据集,⽀持开展通⽤⼈⼯智能⼤模型和垂直领域⼈⼯智能⼤模型训练。 01 02 03 2023年6⽉⾄2023年8⽉ •6.14360发布智脑⼤模型4.0 •6.15百川智能发布开源Baichuan-7B •6.25清华&智谱AI发布开源ChatGLM2 •7.7华为发布盘古3.0 •7.7商汤科技发布商量2.0 •7.9⻄湖⼼⾠发布⻄湖⼤模型 •7.19Meta发布开源Llama2 2023年8⽉⾄2023年10⽉ •8.3阿⾥云推出开源Qwen-7B •8.7元象科技发布开源XVERSE-13B •8.11⼩⽶发布⼤模型MiLM •8.17字节跳动公测⼤模型产品⾖包 •8.21云从科技发布从容⼤模型1.5 •9.5商汤科技发布商量3.0 •9.6百川智能发布开源Baichuan2 •9.7腾讯发布混元助⼿ •9.20上海⼈⼯智能实验室发布开源InternLM-20B •9.25OpenAl发布多模态GPT-4V 2023年10⽉⾄2023年12⽉ •10.9⽉之暗⾯发布KimiChat •10.17百度发布⽂⼼⼤模型4.0 •10.24科⼤讯⻜发布星⽕⼤模型3.0 •10.27智谱AI开源了ChatGLM3等模型 •10.30百川智能发布Baichuan2-192K •10.31阿⾥云发布通义千问2.0 •11.7OpenAI发布GPT-4Turbo •11.16OPPO发布AndesGPT •11.24零⼀万物发布开源Yi-34B •12.22腾讯发布混元⼤模型标准版 ⽂本理解和逻辑能⼒提升、具备初级代码⽣成、跨模态能⼒ 多模态、⻓⽂本、逻辑能⼒加强 通⽤⼤模型 科技公司 游戏电商社交⽂娱 教育 汽⻋ ⾏业⼤模型 ⾦融 医疗 其他 能源制造传媒影视 服务商 研究机构 数据来源:InfoQ研究中⼼根据⼚商官⽹、媒体资讯等公开资料整理 百度、阿⾥、腾讯、智谱AI、百川智能等多家企业和机构,按照《互联⽹信息服务算法推荐管理规定》履⾏算法备案和变更、注销备案⼿续,获得备案批准,对公众全⾯开放,标志着⼤模型发展进⼊新阶段,加速推动⼤模型产业化应⽤。 截⽌到2023年12⽉31⽇,已有两批超过20个⼤模型获得备案,⾯向公众开放。应⽤范围涵盖⾃然语⾔处理、图像识别、语⾳识别等多个领域,可应⽤于⾦融、医疗、教育等各个领域。 批次 模型名称 所属企业 第⼀批 ABAB⼤模型 MiniMax 百川⼤模型 百川智能 混元⼤模型 腾讯 GLM⼤模型 智谱AI 盘古⼤模型 华为 ⽇⽇新⼤模型 商汤 书⽣通⽤⼤模型 上海⼈⼯智能实验室 通义⼤模型 阿⾥ ⽂⼼⼀⾔ 百度 星⽕认知⼤模型 讯⻜ 云雀⼤模型 抖⾳ 紫东太初⼤模型 中科院 批次 模型名称 所属企业 第⼆批 百灵⼤模型 蚂蚁集团 MathGPT⼤模型 好未来 Moonshot ⽉之暗⾯ ⾯壁露卡Luca ⾯壁智能 奇元⼤模型 360 天⼯⼤模型 昆仑万维 WPSAI ⾦⼭办公 序列猴⼦ 出⻔问问 ⼦⽈⼤模型 ⽹易有道 知海图AI模型 知乎 模型(未公开) 美团 说明:表格内大模型排序按照大模型名字拼音首字母进行排序 •2023年公布的中国⼤模型产品中,84.57%的⼤模型产品为⾮通⽤⾏业模型。其中⼯商业经济、教育医疗占⽐均⾼于通⽤模型占⽐。 •数据结果统计显示中国⼤模型产品发布时间集中于Q2和Q3,占⽐达全年的80.32%。 2023年中国通⽤⼤模型和⾏业应⽤产品统计 商业经济20.74%教育医疗18.09% 2023年中国主要⼤模型发布时间统计 2.66% 45.21% 35.11% 13.3% 3.72% Q1 Q2Q3 Q4未知 80.32% 通用15.43%工业制造9.57% 生活消费9.04%传媒&营销6.91% 公共事务6.91%信息&安全6.91% ⾮通⽤⾏业84.57% 其他3.72%文化娱乐2.66% 数据来源:根据公开资料搜集的中国188个⼤模型&产品统计得出 通⽤15.43% ChatBot ChatJDᨗ۱ ⾏业⼤模型应⽤ 客服营销代码 协同办公 WPSAI 淘宝问问 其他 光⼦⾦融智能助⼿HiEcho 深睿医疗智能多模态科研平台 游戏电商 社交⽂娱 传媒影视 ⽂⼼·传媒/影视⾏业⼤模型 教育 汽⻋ 仓颉汽⻋⼤模型 ⾏业⼤模型 ⾦融 ⽂⼼·⾦融⾏业⼤模型 ⽂因⾦融⼤模 能源制造 医疗 AntFinGLM 型FD-LLM ⽂⼼·能源/制造 ⾏业⼤模型 其他 ⽂⼼·航天/城市/社科/⾏业 ⼤模型 科⼤讯⻜营销⼤模型 盘古⽓象⼤模型 盘古跨境电商 ⼤模型 ⽟⾔·游戏⾏业⼤模型 盘古媒体⼤模型 ⽂曲⼤模型 星⾠教育 ⼤模型 「⼦⽈」教育⼤模型 叮当HealthGPT 吉利星睿大模型 盘古汽⻋⼤模型 盘古矿⼭ ⼤模型 星⽕医疗⼤模型 云⼚商 服务商 盘古 通义 ⽂⼼ 九天 通⽤⼤模型 科技公司 Baichuan 源1.0 基础模型 智脑 天⼯ 星⽕ 研究机构 PolyLM ⼆郎神 星河 孟⼦ ⽇⽇新从容 ⼭海 天书 ⻄湖 ⽟⾔ 序列猴⼦ moss 悟道 紫东太初 ⾔犀 混元 鸿湖 ChatGLM 天河天元 数据来源:InfoQ研究中⼼根据⼚商官⽹、媒体资讯等公开资料整理 2023年国内主要科技公司在推出通⽤⼤模型的同时,也正在根据企业资源特征、⽤户使⽤场景、⽣态圈层需求等将通⽤⼤模型产品逐渐扩展成为覆盖多个应⽤场景的产品家族。⼤模型头部⼚商逐渐形成。 通⽤⼤模型:⽂⼼⼤模型 ⼤模型产品:⽂⼼⼀⾔、⽂⼼⼀格 ⾏业产品家族:媒体、能源、⾦融等⾏业的13款产品 通⽤⼤模型:通义⼤模型 ⼤模型产品:通义千问 ⾏业产品家族:⾦融、法律、医疗等⾏业9款产品 通⽤⼤模型:讯⻜星⽕认知⼤模型 ⼤模型产品:讯⻜星⽕ ⾏业产品家族:教育、办公、汽⻋等⾏业的4款产品 通⽤⼤模型:混元⼤模型通⽤⼤模型产品:腾讯混元 ⾏业产品家族:⾦融、⽂旅等⾏业的5款产品 从定邀⼩众⽤户到APP端⼤众可以直接下载,⼤模型产品正在从极客世界⾛向更多⼤众。 向公众开放测试 2023年8⽉31⽇起,⽂⼼⼀⾔、通义千问、讯⻜星⽕等产品逐步完全向公众开 放,9⽉APP应⽤商店的下载冠军多次由 常⽤应⽤中嵌套功能 通义千问⼊驻钉钉号,百度⽂库也接 ⼊了⽂⼼⼀⾔,上线了智能⼩助⼿功能。办公场景中,⼤模型开始更直接地与⽤户互动,性能⽔平直线提升。 产品发布邀请测试 2023年上半年只有少数⼏款产品可以直接申请使⽤。⼤部分产品需要获得开发的企业定向邀请,才能注册使⽤。 ⼤模型产品获得。03 02 01 •2023年9⽉起,中国⼤模型产品开始陆续开放公众注册和使⽤功能。 •以开发者为例,⽤户⼤模型产品开始使⽤时间67.17%集中在2023年下半年。 开发者开始使⽤⼤模型产品的时间统计 2023年86.2% 2023年以前13.8% 32.83% 38.98% 28.19% 2023年1月-6月 2023年6月-8月2023年9月-12月 67.17% 数据来源,2023年12⽉InfoQ编辑部发起的《开发者调研》,N=1217 GPT系列大模型百度文心大模型阿里通义大模型 LLaMA2 讯飞星火大模型华为盘古大模型 智谱ChatGLM3大模型 百川大模型 StableVideoDiffusion 昆仑万维天工大模型360智脑大模型MOSS大模型智源悟道大模型 商汤科技商量SenseChat 开发者⼤模型的认知度统计 46.30% 37.10% 30.00% 27.90% 24.20% 23.20% 11.50% 10.20% 7.20% 5.10% 4.60% 4.30% 4.10% 52.20% 开发者认知⼼智梯队基本形成 01 第⼀梯队 GPT系列⼤模型、百度⽂⼼⼤模型 •近半数受访开发者了解或使⽤过上述模