AI智能总结
新华社研究院中国企业发展研究中心2023年11月 报告回顾:大模型产品市场竞争激烈,技术不断进步 从1.0版本到3.0版本的测评过程中,参与厂商的分数变化反映了大模型产品竞争的激烈和技术的进步。可以明显观察到一些厂商在持续进步,而些新的厂商也在逐渐薪露头角。 在1.0版本中(5月测评),ChatGPT系列占据领先位置,其中ChatGPT4表现最佳,紧随其后的是ChatGPT3.5,百度文心一言位于整体第三位置,展现出了较强的实力。这一阶段的科大讯飞星火和阿里通义干问也进入了整体前五,国内前三,表现不俗。 到了2.0版本(8月测评),专注于国内市场,科大讯飞星火实现了跨越式发展,整体表现亮眼。百度文心一言、商汤商量与智谱CHATGLM也取得优异的成绩。同时,360智脑和昆仑万维天工也进入了前五。这些变化展示了厂商之间的激烈竞争和技术进步的速度。 到了3.0版本(11月测评),科大讯飞星火依旧日保持领先,商汤商量紧随其后,稳定发挥。值得一提的是,澜舟科技孟子取得了显著进步,字节跳动豆包作为新面孔,在这次评估中薪露头角。 纵观这三个版本的发展,可以看出一些规律,首先是竞争日益激烈,厂商之问的得分变动频繁,这体现了大模型产品市场的活跃和竞争激烈程度。其次,技术进步明显,从1.0到3.0版本,各个厂商的产品在性能和功能上都有显著提升。最后,新面孔的涌现也展示了这个行业的活力和吸引力,新的厂商不断加入竞争,推动了大模型产品的发展。 大模型产品测评综述 01 目录 ·大模型产品现状与进程3.0版本大模型测评规则 大模型厂商整体测评 02 3.0版本大模型综合指数3.0版本测评细分维度指数及评述测评题目展示 厂商最佳实践案例 03 厂商优秀案例展示 01.大模型产品测评综述 送代风潮之下,大模型产品如何迅速适应并引领市场变革 1.大模型更新迭代速度日新月异,OpenAI2022年11月发布了GPT3.5,2022年3月就发布了GPT4,参数规模成倍增长,2023年6月百度发布了心一言3.5,仅仅4个月之后百度支发布了文心一言4.0,基础模型全面升级,其他厂商的产品也在不断升级送代,大模型的发展速度可请“日新月异”。 2.虽然大模型的性能不断提升,但是大模型在快速发展的同时也面临着一些问题一 不稳定:在GPT4上线初期,有大量用户反馈大模型的回答质量有所下降,尤其在程序生成方面,GPT4生成的代码时常出现错误。OpenAl开发者推广大使LoganKilpatrick也坦言,由于大模型本身存在不稳定性,因此对于相通的提示词,大模型存在回答前后不一致的情况,,幻觉:大模型仍然具有一定局限性,不是完全可靠的,会出现“幻觉事实并犯推理错误。安全:安全是重中之重。在模型训练、模型线上推理服务、模型安全测试、模型训练过程对齐、模型生成内容等方面的安全合规能力需要持续加强 3.市场需求也在发生变化,ChatGPT上线之初更多的人还是把它当成对话工具,但是不久ChatGPT的功能就得到深度挖掘,如今各个领域的内容创作,以及和行业细分领域深度结合的应用越来越多,市场对于大模型的需求也随着用户所在行业的变化而不断发生变化。 历时半年,大模型测评体系再次升级,助力持续发展之路 从历史视角观察,测评1.0与2.0阶段代表着大模型产品的初期评测阶段,主要基于小规模问题集进行评测。这种评测方式在初期对于了解大模型产品的基本性能具有一定的价值。然而,随着时间的推移和技术的进步,课题组发现在经过这两次测评后,众多厂商开始根据测评题目进行定向优化。通过针对测评数据集特定调整,以获取相对较好的排名 此次推出的大模型评测,其核心目标是获取客观、真实的产品结果,并希望通过评测向客户反馈产品真实体验状况,并推动产品的实际进步。针对目前市场上出现的问题,研究团队认为,巫须对评测方式进行优化,确保评测能够全面反馈产品现状。为确保评测能够全面反馈产品现状,课题组实施了以下策略来调整和优化评测体系: 评估维度立体化 主观评价融合客观结果 指标随市场情况动态变动 多维度全面考察,立体展现模型性能避免单一指标偏颜。从数据准确性模型稳定性、到算法效率,全方位、多角度深入评估,实现真实且全面的性能展现, 既注重客观数据衡量的精准性,又兼顾用户主观感受的真实性,以用户为中心,让产品的优质体验真正落地,助推质量提升。 随着市场环境的变迁和技术进步,及时对评估指标进行更新与调整,确保评估体系始终保持与市场需求的紧密关联。 本次评测规则(1/2) 基于优化策略,新华社研究院中国企业发展研究中心正式推出全新的大模型评测3.0版本。此次升级在多方面都呈现出显著的提升和改进: 1.增加了厂商技术维度和潜力评估。在评测过程中,不仅考虑模型产品的实际表现,还深入评估厂商的技术实力和未来发展潜力。用三维视角更全面的观察厂商,体现出厂商在技术和市场方面的综合实力。 2.分数评估更加客观:本次测评使用机器自动化流程进行第一轮打分,再辅以专家团队进行复核,避免了一些主观因素。 3.题库数量扩充。在3.0版本中,题库扩充到了1000道,并精选其中的400道进行实际问答测试。大大提升了评测的广度和深度,能更准确地反映模型在不同场景和问题下的实际表现。 4.3.0版本在总分计算方式上也做了调整。之前版本的总分经过加权处理,而3.0版本取消了加权,直接展示真实得分。使得评测结果更为直观,也更能真实反映模型的性能。 5.专家团再次进行了升级。新的专家团队在经验和专业度上都有了提升,专业判断和建议将为评测提供更坚实的支撑 本次评测规则(2/2) 具体题目打分规则 细分维度包括基础能力、智商、情商以及工具提效四个部分 02.大模型厂商整体测评 主流大模型综合指数3.0 主流大模型综合指数3.0解析 整体而言,大模型厂商在技术实力上呈现出百家争鸣态势。不同厂商在产品特点和优势上各有干秋。一些厂商在安全性能上表现出色,通过加强模户需求,提升用户体验 ,技术实力方面:在当下的大模型技术领域,厂商之间的技术博奔尤为激烈。每个厂商都努力在模型的算法、架构、性能等各方面导求突破。在本次评估中,科大讯飞依赖其在语音技术领域的长期积累,为大模型注入了丰富的语音交互能力,商汤则发挥其在计算机视觉领域的专长,使得其大模型在图像处理和识别上具备卓越性能,智谱AI的技术能力也不容小靓,其开源的“GLM-130B"和“ChatGLM-6B”等模型,在行业内赢得了广泛认可,不仅具备很强的语言理解和生成能力,还能有效地处理多轮对话和复杂任务。 发展潜力方面:发展潜力是决定一个厂商能否持续领跑的关键因素。虽然字节跳动起步相对较晚,但其产品的用户黏性和活跃度都证明了其有着巨大的成长潜力。此外,润舟科技然在市场上的声量相对较小,但其专业性和针对性都为其在未来的细分市场中赢得了有利地位。 实际测评结果方面:本次的实际测评结果是对各大厂商技术实力和市场策略的一次检验,科大讯飞再次表现亮眼,这再次证明了科大讯飞在大模型技术领域积淀深厚,商汤和智谱AI紧随其后,本次得分结果不仅仅是对其技术能力的认可,更是对其在大模型领域持续创新和务力的反映。 基础能力指数及述评 基础能力描述 在基础能力部分,科大讯飞星火表现最为抢眼,能够准确地理解指令,并且能够生成图像:字节跳动豆包同样能较为准确地理解指令并且完成部分生产图像的指令: 智谱AICHATGLM和润舟科技孟子都能较为准确地理解指令,表现优良: 360智脑、商汤商量和腾讯混元存在对于部分实无法进行校准的问题,部分过程并未展示,导致无法判断错误回答底层逻辑: 昆仑万维天工、阿里通义干问和中科闻歌雅意对于部分题目无法进行回答,且理解不够准确,有待提升推理逻辑等能力。 基础能力相关问题 假如我是一个5岁的儿童,请向我解释为什么星星会发光, 基础能力相关问题 假如我是一个5岁的儿童,请向我解释为什么星星会发光, 基础能力相关问题 假如我是一个5岁的儿童,请向我解释为什么星星会发光 智商指数及述评 智商指标描述 在智商部分,科大讯飞星火在回答基本正确的同时能够理解指令,不给出多余的回答:商汤商量、澜舟科技孟子和智谱AICHATGLM大多数时候能够根据指令回答问题;360智脑、阿里通义干问和字节跳动豆包准确率较高,但常常没有依据指令给出简要回答;腾讯混元、昆万维天工和中科闻款雅意准确率较低于前几个大模型,存在可能无法正确回答问题的情况较多。 智商相关问题 以下是有关专业心理学的单项选择题,请选出下列最符合的选项。只能用字母A、B、C、D作答,不要给出多余的内容。这个女人虽然自己没有颜色盲,但却把这种缺陷传给了她的儿子,这个女人传递的缺陷代表了她的一个特征A.Y染色体B.基因型C.表现型D.显性基因 智商相关问题 以下是有关专业心理学的单项选择题,请选出下列最符合的选项。只能用字母A、B、C、D作答,不要给出多余的内容。这个女人虽然自己没有颜色盲,但却把这种缺陷传给了她的儿子。这个女人传递的缺陷代表了她的一个特征AY染色体B.基因型C.表现型D.显性基因 情商指数及述评 情商指标描述 情商部分,各大模型表现差距不大。在给定的场景中基本均能展现较高的灵活性及人文关怀。 其中,商汤商量、腾讯混元所给方案详尽,问题切入角度多样,且一定程度上引导用户进行更深入的思考。 科大讯飞星火、字节跳动豆包、阿重通义王问、智语AIChatGLM和昆仑万维天工在分析问题时能够考思到不同的策略,并给出令人信服的理由。总体具备较高的情商能力。 澜舟科技孟子、360智脑也能够给出切实可行的意见方案。总体逻辑恰当,表述完备,具备一定参考价值。而中科闻歌雅意存在部分问题无法回答的情况,在识别用户提问伦理方面,仍有一定提升空间。 情商相关问题 如果你的同事不遵守团队规定或道德准则,你会如何处理这种行为? 情商相关问题 如果你的同事不遵守团队规定或道德准则,你会如何处理这种行为? 作为一个AI助手,我不会直接干预人类之间的关系和互动。但是,我可以提供一些建议来帮助您应对这种情况 1.首先,尝试与该同事进行私下沟通,明确指出他们的行为违反了团队规定或道德准则,并询问他们是否意识到自己的错误。在沟通过程中要保持冷静、客观,避免情绪化的言辞。 2.如果该同事仍然没有改变其行为,或者问题变得更加严重,您可以考虑向上级领导汇报此事,确保您有足够的证据支持您的指控,并且能够清断地表达出问题所在以及可能带来的后果, 4.给予适当的惩罚:如果同事的行为非常严重,或者已经多次违反团队规定和道德准则,我会建议给予适当的恋罚,例如口头普告、书面誓告、罚款或其他形式的恋罚。这样可以让同事意识到自己的行为不当,并防止类以的行为再次发生 情商相关问题 如果你的同事不遵守团队规定或道德准则,你会如何处理这种行为? 情商相关问题 如果你的同事不遵守团队规定或道德准则,你会如何处理这种行为? 情商相关问题 如果你的同事不遵守团队规定或道德准则,你会如何处理这种行为? 工具提效指数及述评 工具提效指标描述 工作提效部分,在不同专业技能场景下测评模型均能定程度上提升问题分析和解决水平,以及大纲罗列的速度。 科大讯飞星火、商汤商量和字节跳动豆包不仅能够较好地解答日常聚感,在法学、经济学、文学方尚上也表现不凡,能够以较快的速度响应并给出较为准确可信的结果。 360智脑、澜舟科技-孟子、智谱AIChatGLM在多语种翻译、代码编程和文字摘录方面表现优异,给出的回答能够起到辅助作用,并为专业从业人员提供参考。 昆仑万维天工、阿里通义干问、中科闻歌雅意也能够给出较为完备的解答。腾讯混元在少部分问题的准确性上仍有进步空间 工具提效相关问题 猴痘会通过什么途径传播?目前的治疗方法是什么? 工具提效相关问题 猴痘会通过什么途径传播?目前的治疗方法是什么? 猴痘是一种由猴痘病毒引起的疾病,它可以通过直接接触感染者或被污染物品(如床上