中国企业发展研究中⼼ 新华社国家⾼端智库分中⼼ 1 人工智能大模型体验报告2.0 新华社研究院中国企业发展研究中心2023年08月 报告综述 在2023年6月首次发布的《人工智能大模型体验报告》基础之上,本次测评在题目设计、对标Benchmark (人类)、打分权重、专家测评团队四大维度进行了全面升级。在题目设计方面,测评题目由300道扩展至500道,并进一步完善了题目分类;在对标Benchmark方面,本次测评将接受过高等教育的人类作为对照,来考评大模型真实能力;在打分标准上,本次测评根据对产业、生活的实际价值,对四大测评维度进行了权重设计;在测评团 队方面,本次测评特邀北京大学文化与传播研究所及其他业界、学界专家全程参与。 通过本次测评发现,与2023年6月相比,当前中国大模型产品进步显著。但与接受过高等教育的人类相比,大模型在智商、情商等方面还存在一定程度差距。具体来看,科大讯飞的星火在工作提效方面优势明显;百度文心一言地基深厚、基础能力仍处领军水准;商汤商量则在情商方面表现优秀;智谱AI的ChatGLM整体表现优秀。 在本次体验测评的基础上,研究团队将继续深耕,加强在大模型安全可解释性、工作提效能力、实际落地情 况、产业优秀案例等维度上的探索与研究,欢迎持续关注。 目录 01 大模型市场综述 •大模型发展进程 目录 •大模型应用发展建议 •大模型未来发展趋势 •2.0版本大模型测评规则 02 大模型厂商整体测评2.0版本 •2.0版本大模型综合指数 03 厂商优秀答案展示 •大模型2.0版本测评题目展示 •2.0版本测评细分维度指数及评述 01.大模型成为AI大规模落地拐点 大模型发展进程 中国大模型发展现状 大模型发展进程 通用大模型应用垂直大模型应用 中国大模型发展热度依旧,天眼查数据显示,截至2023年上半年,与“大模型”直接相关的融资事件超20起,其中包含光年之外、面壁智能等明星级创业企业;从被投企业的地域分布来看,北京、上海以及杭州位居前列,特别是北京,融资事件数量超10起,凸显出北京在人工智能领域的领先地位。越来越多的企业和学术界开始关注如何将大模型与实际应用场景相结合,实现真正的商业化应用。具体来说探索主要围绕研究层面和应用层面: •研究层面,中国大模型在科研方面已形成涵盖理论、方法、软硬件的体系化能力,学术界和产业界共同参与,形成更加完善的理论框架。 •应用层面,目前大模型已开始渗透到各行各业,实现商业化应用。超过半数的大模型实现开源。 360智脑-360 WAI-微盟WPSAI-金山办公 超拟人大模型-聆心智能赤兔-容联运 混元-腾讯九天-中国移动 源-浪潮盘古-华为日日新-商汤 天工-昆仑万维天书-云天励飞通义千问-阿里云文心一言-百度西湖-西湖心辰星河-中国电信星火-科大讯飞 序列猴子-出门问问玉颜、丹青-网易伏羲知海图-知乎 紫东太初-中科院 ----教育---- 子曰-有道 ----金融---- ChatABC-中农行 ----媒体---- Baker-GPT-标贝科技Graph-AIGC-图宇宙 ----汽车---- DriveGPT-毫末智行 ----医疗---- HealthGPT-叮当medGPT-医联 左医GPT-左手医生 ----游戏---- DRL-rctAIGAEA-超参数 大模型应用发展建议 大模型进程过半,如何让AI真正走进千家万户成关注重点 AI技术发展的重点已经从大模型的盲目追求转向了实用性和可持续性的发展,AI大规模落地需要更多时间来验证。通过降低成本、提高易用性、增强可靠性、保护隐私和安全等方面的措施,可以进一步提高大模型的可用性,让更多的人受益于AI技术的发展,实现更加智能化和便捷化的生活。 降低成本 提高易用性 安全可解释 数据安全 •优化算法:通过改进和优化算法,可以降低模型的计算复杂度,减少所需的计算资源和时间。 •分布式训练:分布式训练是一种技术,可以将训练任务分配到多个计算节点上并行处理,从而加速训练过程。 •模型压缩:通过减少模型的参数数量、裁剪模型的结构或使用低精度计算等方法,来减小模型的存储空间和计算复杂度。 •用户界面设计:设计直观、易用的用户界面,利用自然语言交互等技术,降低使用门槛。 •开发工具和平台:提供简单易用的开发工具和平台,例如智能代码生成、自动化模型训练等工具,使非专业人士也能够轻松上手。 •服务支持:提供相关的培训和教育资源,帮助用户了解AI技术的原理和应用场景,加强运营和推广,形成数据-技术-用户-数据反馈的正向闭环。 •提升数据质量:提高数据的质量和多样性,加强对数据的清洗、处理和扩充,以提高训练数据的质量和完整性。 •鲁棒性增强:提高模型的鲁棒性,使其更好地应对各种异常情况和边缘情况,减少错误和漏洞。包括数据增强、引入噪声、使用防御性编程等技术。 •持续监控和升级:及时发现和修复模型的问题和缺陷。建立监控系统、进行性能测试等技术。 •数据加密:对用户个人数据进行匿名化处理,利用哈希算法、公钥加密等技术加密技术保护数据的传输和存储。 •访问控制和身份认证:建立严格的访问控制机制和身份认证体系,确保只有经过授权的用户才能访问和使用数据。使用角色分配、权限控制等技术实现访问控制。 •安全审计和监控:建立健全机制,使用安全日志对AI应用的安全性进行定期检查和评估。 大模型未来发展趋势 未来已来,大模型概念红利逐渐消失,回归到实际应用 持续加强算力基础设施建设 构建完整的数据中心,扩大算力设施规模,提升算力使用效率,实现算力的集中化、高效化供给 跨领域知识、多模态数据融合 打造综合性的知识体系,打通多模态数据之间的沟通壁垒。多技术、多数据融合,一体化的解决方案逐渐产生化学效应 安全可靠的大模型产品应用正成为深耕方向 安全可解释的大模型是AI大规模落地的必要条件之一,通过AI算法模型进行行为分析等提前预警风险,提高模型鲁棒性等需要持续深耕 大模型走向实体经济,商业化路径逐渐明晰 从技术概念到实际落地,已有部分大模型应用出现,以产品或服务的方式进行商业化的路径已经逐渐开始试点 大模型更加注重在线学习和增量学习 探索模型无监督学习,在不断接收新数据的过程中进行自主学习和升级,从而提高模型的学习效率和适应能力以及迁移性 测评规则 2.0版本评测规则(1/2) 经过对大模型评测1.0版本的打磨和沉淀,新华社研究院中国企业发展研究中心推出大模型评测2.0版本。主要升级方向包括: 1.引入Benchmark-人类答案做对比(组建专家团队,利用开卷考试的方式进行问答),更加直观观测AI模型与人之间的差异; 2.题目数量由300道扩充到500道,在题库中随机筛选题目,使结果更加客观; 3.根据目前市场情况,增加二级分类权重,并细化二级分类,侧重考察产品的基础能力和智商部分,更符合市场进程; 4.专家团队升级,专家团队成员涵盖高校教授、行业专家、企业CEO、自媒体创始人等,在打分过程中打乱问题,采用背靠背的打分形式,进一步增强打分结果权威性。 本次测评大模型评测维度: •基础能力(共150题):考察产品的语言能力、跨模态能力以及AI向善的引导能力,新增多轮对话能力。 •智商测试(共125题):涵盖常识知识、专业知识、逻辑能力三大项。其中专业知识包括数学、物理、金融、文学等10+项细分,逻辑能力则包括推理能力、归纳能力以及总结等6项维度。逻辑推理能力权重增高,并明确封闭式问题打分规则。 •情商测试(共75题):衡量产品个体情感能力。包括自我认知、自我调节、社交意识、人际关系管理等方面,本次情 商测试围绕不同场景下的突发状况、沟通技巧、情绪管理等展开,并引入专家帮助评估答案。 •工具提效能力(共150题):将二级维度总结归纳为工具和创新两大类型,考察产品能否有效帮助相关人员的工作效率提升,并为创新提供思路。 测评规则 本次评测规则(2/2) 评测大模型产品 360智脑 文心一言 Mchat 讯飞星火 天工 通义千问 商量 ChatGLM 5分 问题答案较为完美,内容可在实答案正确且有相关解际场景中直接使用读 3分 调整可用,但需人工进行调整后答案错误,但有推理方可使用过程 打分规则 分数 开放型问题 封闭式问题 4分 基本可用,可在实际场景中使用答案正确 2分 大略可用,需要较多人工调整方可使用 - 0分 无法作答 答案错误,没有推理过程 1分不可用,答非所问、语言不通- 注:本次测评时间为2023年07月31日-2023年8月04日9 02.大模型厂商整体测评 10 综合排名 主流大模型综合指数2.0 1200 主流大模型综合指数2.0 1000 800 600 400 200 人类-答案 讯飞-星火 百度-文心一言 商汤-商量 智谱-ChatGLM 360-360智脑 昆仑万维-天工 阿里-通义千问 澜舟科技-Mchat 总分 1014 1013 1010 983 983 951 943 935 932 基础能力 193 180 189 182 182 181 166 170 167 智商能力 153 147 145 126 147 125 133 120 117 情商能力 371 337 342 346 338 338 335 337 340 工具提效 297 350 335 329 316 308 309 309 309 0 注1:基于评测条件、评测时间等限制,本次评测最终结果不可避免存在一定主观性,未来将进一步优化完善评测模型,提供更精确结果 注2:分数四舍五入取整11 综合排名 主流大模型综合指数2.0解析 本次引入Benchmark结果对比更加明确。首先,在基础能力方面,人类与AI之间的差距并不显著。这是因为AI算法模型的开发受到人类编程思维的影响,并且在其开发过程中充分利用了人类的智慧和知识。在政策的积极引导下,AI在向善和语言能力上表现出色,逐渐接近人类专家的水平。值得关注的是,大模型的安全可解释性需要持续投入,避免不受控制的现象出现。 尽管AI在某些方面能够达到或超过人类的水平,但在整体上,人类在智商方面仍然具有明显优势。人类的智商不仅体现在学习能力上,更表现在善用工具和解决问题的能力上。尽管一个人不可能在所有领域都精通,但通过互联网等渠道获取各方面的信息,进行总结、积累和归纳,从而形成个人知识体系,这是人类智商的一个重要表现。因此,在智商评估中,人类的分数达到最高。 在情商方面,AI与人类之间的差距最为明显。目前尚未观察到AI具备情绪感知能力的明显迹象。相比之下,人类在情绪理解和处理方面通常具有更强的优势和更灵活的处理能力。人类的情感智慧是人类智能的重要组成部分,它涉及到人类的高级认知和社交能力,AI需要进一步发展感知智能。最后,在工具效率提升方面,AI对人类提供了有力的支持,AI的处理速度远远超过人类。然而,尽管AI具有高速度和高效率的优势,但在某些复 杂和具有创新性的任务中,人类的智慧和想象力仍然具有无法替代的作用。 整体上看,AI大模型的发展为人类工作和生活的提质增效均带来了正向的积极影响。 12 百度-文心一言 商汤-商量 智谱AI-ChatGLM 360智脑 讯飞-星火 阿里-通义千问 澜舟科技-Mchat 昆仑万维-天工 分模块测评结果 基础能力指数及述评 AI大模型基础能力指数 166 167 170 180 181 182 182 189 在基础能力部分,百度文心一言表现最为抢眼;商汤商量、智谱AIChatGLM、360智脑表现优良;讯飞星火、阿里通义千问、澜舟科技Mchat、昆仑万维天工表现尚佳。 基础能力描述 大模型的基础能力包括多个方面,其中最重要的是语言能力。语言是人类智慧的体现,也是人工智能系统需要理解和模仿的重要领域。大模型通过学习和训练,可以理解和生成自然语言文本,并且可以进行多语言翻译和多语言对话。这