中国企业发展研究中心新华社国家高端智库分中心 1 人工智能大模型体验报告3.0 新华社研究院中国企业发展研究中心 2023年11月 报告回顾:大模型产品市场竞争激烈,技术不断进步 三次测评概览 3.0版本 2.0版本 1.0版本 注:气泡越大代表实际测评得分越高,分数越靠前;空白表示该版本下未测试。 从1.0版本到3.0版本的测评过程中,参与厂商的分数变化反映了大模型产品竞争的激烈和技术的进步。可以明显观察到一些厂商在持续进步,而一些新的厂商也在逐渐崭露头角。 •在1.0版本中(5月测评),ChatGPT系列占据领先位置,其中ChatGPT4表现最佳,紧随其后的是ChatGPT3.5。百度文心一言位于整体第 三位置,展现出了较强的实力。这一阶段的科大讯飞星火和阿里通义千问也进入了整体前五,国内前三,表现不俗。 •到了2.0版本(8月测评),专注于国内市场,科大讯飞星火实现了跨越式发展,整体表现亮眼。百度文心一言、商汤商量与智谱CHATGLM 也取得优异的成绩。同时,360智脑和昆仑万维天工也进入了前五。这些变化展示了厂商之间的激烈竞争和技术进步的速度。 •到了3.0版本(11月测评),科大讯飞星火依旧保持领先,商汤商量紧随其后,稳定发挥。值得一提的是,澜舟科技孟子取得了显著进步,字节跳动豆包作为新面孔,在这次评估中崭露头角。 纵观这三个版本的发展,可以看出一些规律。首先是竞争日益激烈,厂商之间的得分变动频繁,这体现了大模型产品市场的活跃和竞争激烈程度。其次,技术进步明显,从1.0到3.0版本,各个厂商的产品在性能和功能上都有显著提升。最后,新面孔的涌现也展示了这个行业的活力和吸引力,新的厂商不断加入竞争,推动了大模型产品的发展。 目录 目录 01 大模型产品测评综述 •大模型产品现状与进程 •3.0版本大模型测评规则 02 大模型厂商整体测评 •3.0版本大模型综合指数 •3.0版本测评细分维度指数及评述 •测评题目展示 03 厂商最佳实践案例 •厂商优秀案例展示 01.大模型产品测评综述 1.大模型更新迭代速度日新月异,OpenAI2022年11月发布了GPT3.5,2022年3月就发布了GPT4,参数规模成倍增长,2023年6月百度发布了文心一言3.5,仅仅4个月之后百度又发布了文心一言4.0,基础模型全面升级,其他厂商的产品也在不断升级迭代,大模型的发展速度可谓“日新月异”。 2.虽然大模型的性能不断提升,但是大模型在快速发展的同时也面临着一些问题—— •不稳定:在GPT4上线初期,有大量用户反馈大模型的回答质量有所下降,尤其在程序生成方面,GPT4生成的代码时常出现错误。OpenAI开发者推广大使LoganKilpatrick也坦言,由于大模型本身存在不稳定性,因此对于相通的提示词,大模型存在回答前后不一致的情况。 •幻觉:大模型仍然具有一定局限性,不是完全可靠的,会出现“幻觉”事实并犯推理错误。 •安全:安全是重中之重。在模型训练、模型线上推理服务、模型安全测试、模型训练过程对齐、模型生成内容等方面的安全合规能力需要持续加强。 3.市场需求也在发生变化,ChatGPT上线之初更多的人还是把它当成对话工具,但是不久ChatGPT的功能就得到深度挖掘,如今各个领域的内容创作,以及和行业细分领域深度结合的应用越来越多,市场对于大模型的需求也随着用户所在行业的变化而不断发生变化。 从历史视角观察,测评1.0与2.0阶段代表着大模型产品的初期评测阶段,主要基于小规模问题集进行评测。这种评测方式在初期对于了解大模型产品的基本性能具有一定的价值。然而,随着时间的推移和技术的进步,课题组发现在经过这两次测评后,众多厂商开始根据测评题目进行定向优化。通过针对测评数据集特定调整,以获取相对较好的排名。 此次推出的大模型评测,其核心目标是获取客观、真实的产品结果,并希望通过评测向客户反馈产品真实体验状况,并推动产品的实际进步。针对目前市场上出现的问题,研究团队认为,亟须对评测方式进行优化,确保评测能够全面反馈产品现状。为确保评测能够全面反馈产品现状,课题组实施了以下策略来调整和优化评测体系: 评估维度立体化 多维度全面考察,立体展现模型性能,避免单一指标偏颇。从数据准确性、模型稳定性、到算法效率,全方位、多角度深入评估,实现真实且全面的性能展现。 主观评价融合客观结果 既注重客观数据衡量的精准性,又兼 顾用户主观感受的真实性,以用户为中心,让产品的优质体验真正落地, 助推质量提升。 指标随市场情况动态变动 随着市场环境的变迁和技术进步,及 时对评估指标进行更新与调整,确保评估体系始终保持与市场需求的紧密 关联。 基于优化策略,新华社研究院中国企业发展研究中心正式推出全新的大模型评测3.0版本。此次升级在多方面都呈现出显著的提升和改进: 1.增加了厂商技术维度和潜力评估。在评测过程中,不仅考虑模型产品的实际表现,还深入评估厂商的技术实力和未来发展潜力。用三维视角更全面的观察厂商,体现出厂商在技术和市场方面的综合实力。 2.分数评估更加客观:本次测评使用机器自动化流程进行第一轮打分,再辅以专家团队进行复核,避免了一些主观因素。 3.题库数量扩充。在3.0版本中,题库扩充到了1000道,并精选其中的400道进行实际问答测试。大大提升了评测的广度和深度,能更准确地反映模型在不同场景和问题下的实际表现。 4.3.0版本在总分计算方式上也做了调整。之前版本的总分经过加权处理,而3.0版本取消了加权,直接展示真实得分。使得评 测结果更为直观,也更能真实反映模型的性能。 5.专家团再次进行了升级。新的专家团队在经验和专业度上都有了提升,专业判断和建议将为评测提供更坚实的支撑。 一级指标 二级指标 三级指标 技术实力 平台性能 易用性灵活性反应速度 安全性能 数据安全稳定性 模型可解释性 透明性、稳定性 实时性能 数据实时性 发展潜力 社会认可度 用户接受度 创新能力 新应用场景 市场前景 企业商业模型企业战略目标技术团队能力 分数 开放型问题 封闭式问题 5分 问题答案较为完美,内容可在实际场景中直接使用 答案正确且有相关解读 4分 基本可用,可在实际场景中使用 答案正确 3分 调整可用,但需人工进行调整后方可使用 答案错误,但有推理过程 2分 大略可用,需要较多人工调整方可使用 - 1分 不可用,答非所问、语言不通 - 0分 无法作答 答案错误,没有推理过程 具体题目打分规则 细分维度包括基础能力、智商、情商以及工具提效四个部分 评测大模型产品技术&潜力评估指标 注:本次测评时间为2023年10月25日-2023年11月6日8 02.大模型厂商整体测评 9 阿里-通义千问,1634 智谱AI-ChatGLM,1729 科大讯飞-星火,1775 腾讯-混元,1609 商汤-商量,1746 技术为王 技术实力 未来领袖 字节跳动-豆包,1710 昆仑万维-天工,1573 澜舟科技-孟子,1719 360-360智脑,1711 中科闻歌-雅意,1511 中规中矩 潜力无限 发展潜力 注:纵坐标代表技术能力,分数越高技术实力越强;横坐标代表发展潜力,分数越高代表潜力越大;横纵坐标位置以圆心为准。气泡图大小(图中数字)为测试 题目实际得分,但基于评测条件、评测时间等限制,本次评测最终结果不可避免存在一定主观性,未来将进一步优化完善评测模型,提供更精确结果。10 整体而言,大模型厂商在技术实力上呈现出百家争鸣态势。不同厂商在产品特点和优势上各有千秋。一些厂商在安全性能上表现出色,通过加强模型的鲁棒性和数据保护措施,为用户提供更可靠、更放心的服务。另一些厂商则在易用性上下功夫,致力于降低用户的学习曲线,使产品更贴近用户需求,提升用户体验。 •技术实力方面:在当下的大模型技术领域,厂商之间的技术博弈尤为激烈。每个厂商都努力在模型的算法、架构、性能等各方面寻求突破。在本次评估中,科大讯飞依赖其在语音技术领域的长期积累,为大模型注入了丰富的语音交互能力。商汤则发挥其在计算机视觉领域的专长,使得其大模型在图像处理和识别上具备卓越性能。智谱AI的技术能力也不容小觑,其开源的“GLM-130B”和“ChatGLM-6B”等模型,在行业内赢得了广泛认可,不仅具备很强的语言理解和生成能力,还能有效地处理多轮对话和复杂任务。 •发展潜力方面:发展潜力是决定一个厂商能否持续领跑的关键因素。虽然字节跳动起步相对较晚,但其产品的用户黏性和活跃度都证明了其有着巨大的成长潜力。此外,澜舟科技虽然在市场上的声量相对较小,但其专业性和针对性都为其在未来的细分市场中赢得了有利地位。 •实际测评结果方面:本次的实际测评结果是对各大厂商技术实力和市场策略的一次检验。科大讯飞再次表现亮眼,这再次证明了科大讯飞在大模型技术领域积淀深厚。商汤和智谱AI紧随其后,本次得分结果不仅仅是对其技术能力的认可,更是对其在大模型领域持续创新和努力的反映。 2000 1800 1600 1400 1200 1000 800 600 400 200 0 科大讯飞-星火 商汤-商量 智谱AI-ChatGLM 澜舟科技-孟子 360-360智脑 字节跳动-豆包 阿里-通义千问 腾讯-混元 昆仑万维-天工 中科闻歌-雅意 1775 1746 1729 1719 1711 1710 1634 1609 1573 1511 419 392 415 403 398 417 350 389 351 337 393 392 391 391 385 350 373 312 308 285 491 498 488 483 481 490 489 495 487 470 总计 基础能力智商 情商 工具提效 472 464 435 442 447 453 422 413 427 419 总计基础能力智商情商工具提效 注:基于评测条件、评测时间等限制,本次评测最终结果不可避免存在一定主观性,未来将进一步优化完善评测模型,提供更精确结果。 419 417 415 403 398 392 389 351 350 337 基础能力描述 在基础能力部分,科大讯飞星火表现最为抢眼, 能够准确地理解指令,并且能够生成图像; 字节跳动豆包同样能较为准确地理解指令并且完成部分生产图像的指令; 智谱AICHATGLM和澜舟科技孟子都能较为准确 地理解指令,表现优良; 360智脑、商汤商量和腾讯混元存在对于部分事实无法进行校准的问题,部分过程并未展示,导致无法判断错误回答底层逻辑; 昆仑万维天工、阿里通义千问和中科闻歌雅意对于部分题目无法进行回答,且理解不够准确,有 待提升推理逻辑等能力。 AI大模型基础能力指数 注:基于评测条件、评测时间等限制,本次评测最终结果不可避免存在一定主观性,未来将进一步优化完善评测模型,提供更精确结果。 科大讯飞-星火 好的,小朋友。你知道夜晚的时候,我们点蜡烛,蜡烛会发出亮光吗?星星其实就像是天空的小蜡烛。它们里面有一种特别的东西在“烧”,当它“烧”的时候,就会发出亮亮的光。所以每当夜晚,我们看上去,就可以看到许多亮亮的星星在天空中闪烁啦! 字节跳动-豆包 你知道太阳吗?太阳是一个非常大非常热的球,它会发出非常明亮的光。星星和太阳有点像,它们也是由气体和尘埃组成的球,但是星星比太阳小很多很多。虽然星星比太阳小,但是它们也会发出光。这是因为星星里面有很多很多的原子,这些原子在不断地运动和碰撞,产生了能量。这些能量会让星星发出光来,就像灯泡里面的灯丝一样。所以,当我们在夜晚看到天上的星星时,其实是看到了它们发出的光。这些光穿过了宇宙中的空气,最后到达了我们的眼睛,所以我们就能看到它们啦。 智谱AI-ChatGLM 好的,让我们来谈谈为什么星星会发光。你知道吗,星星其实是由气体和尘埃组成的,它们在太空中漂浮。这些气体和尘埃非常炽热,所以它们会发出光