2023AIGC应用app智能化评测报告 月狐数据(MoonFoxData)2024年3月 深圳市和讯华谷信息技术有限公司版权所有©2011-2024粤ICP备12056275号-13 CONTENTS 0研究背景与评估体系介绍 02评估结果与案例展示 03趋势与展望 PART0 研究背景与评估体系介绍 研究背景:AIGC产品快速迭代,普及率持续提升 •2023年AI大模型迎来创新浪潮,各大厂商密集推出和迭代基于大模型的AIGC应用产品,应用场景覆盖AI对话、写作、学习、媒体创作、办公商务等领域,满足用户多功能需求 •与此同时,用户对于AIGC产品的使用兴趣度不断提升,生成式AI普及范围持续扩大,数据显示,截止2023年12月,生成式AI移动应用全 网安装渗透率达6.7%,MAU已超2000万,其中文心一言、天工、讯飞星火、豆包等主流app产品用户规模呈现快速增长态势 截止2023年12月 生成式AI移动应用全网安装渗透率6.7%,MAU达2,012.6万 办公商务 办公通用 百度文库钉钉AI WPSAI通义听悟 AiPPT美图AIPPT庖丁解文GPTBOTS.AI 电商 设计 超会AI摹小仙水母智能设计筑绘通 法律编程 海瑞智法法小开CodeGeeXCopilot 写作辅助 笔灵AI写作小鱼AI写作息流AI 光速写作AI论文写作NotionAI AIGC应用场景图谱 对话通用 文心一言通义千问豆包讯飞星火 天工智谱清言360智脑ChatGPT 多媒体创作 闪剪 万彩AI通义舞王吐司TusiArt 腾讯智影怪兽AI数字人百姓AI妙鸭相机 学习/翻译 星火语伴AI口语陪练快问AI 海豚AI学有道速读讯飞智能翻译 x10000 主流AIGC应用appMAU变化 文心一言app 天工app 豆包app 智谱清言app 讯飞星火app 800 600 400 200 0 数据来源:月狐iAPP(MoonFoxiApp);取数周期:2023.07-2023.12 AIGC应用app智能化评估体系介绍 •目前市面AIGC产品众多,且底层技术和产品功能的更新迭代速度较快,为此本报告推出AIGC应用app智能化评估体系,旨在通过量化指 标测量AIGC应用产品在技术能力、使用体验上的优势,帮助广大用户更直观地了解和选择AIGC产品 一级指标 二级指标 指标解释 基础能力 上下文理解能力 是否能理解用户输入的上下文,生成更连贯、具有逻辑性的回答 多模态能力 包括绘画、图片解析、语音交流方面的能力 多语言支持 对外国语问题的理解和回答情况 内容实时性 是否能够提供最新的信息、数据 内容创新性 生成的内容是否具备创造性、独特性、创意性等 使用体验 使用成本 个人用户能否免费使用app产品功能 响应速度 根据长字段指令的回应速度、长字段输出的速度、封闭题答题时间、作图时间等综合评估 稳定性 面对异常/未知输入(如在提示词中加入拼写错误的词、近义词等)是否能够准确理解和输出 回答真实性 输出的内容出现幻觉/不真实情况的频次 安全合规 对敏感词的检测严格度 过滤潜在危险/敏感信息,拒绝回答或报错的频次,反映对敏感词检测的严格程度 不合规问题回应 对涉及违法犯罪、道德伦理、隐私财产、个人安全等问题的反应和回答情况 一级指标 二级指标 指标解释 生成质量 创意写作 包括自媒体、编剧、新闻稿、市场营销、行业分析等方面的文稿创作能力 多轮行程规划 是否能根据指令进行行程重新规划的能力 角色扮演 是否能够支持扮演特定角色,并与用户进行流畅、沉浸式对话的能力 逻辑与推理 包括简单推理、复杂推理、分析/总结/归类、代码编程等能力 情感对话 是否支持代入特定人设(虚拟情侣),与用户进行流畅对话、提供情感支撑的能力 情商问答 与人际交往相关的情商问题的回应能力 数学与计算 包括初高中数学题、高数题、复杂计算题等回答情况 专业知识问答 对历史、政治、文学、物理、生物、化学等学科知识问题的回答情况 智能体能力 个性化程度 智能体创建设定条件的多样化,反映用户创建智能体的自由度 角色还原度 名人、明星、动漫人物等智能体在形象、声音、语气、性格等方面对本体的还原程度 交互沉浸度 从视、听、说方面智能体是否能给用户带来沉浸的交互体验 内容契合度 智能体生成的内容多大程度上与设定的条件特征契合 •AIGC应用app智能化评估体系由基础能力、使用体验、生成质量、智能体能力、安全合规5个一级指标以及23个二级指标构成,其中智能体能力是我们基于大模型技术的最新发展趋势所增设的评测维度,智能体是指以AI为核心构建的一个集合立体感知、全域协同、精准判断、持续进化等特征的智能系统,是各家大模型厂商目前着重布局的应用场景,基于智能体功能用户可以按照自己的需求打造出更具个性化的AIGC方案,因此加入智能体能力评测指标,一方面能够更加全方位地测量AIGC应用产品的能力,除了大模型的底层能力之外,也能测量到大模型技术的应用场景落地能力,另一方面能够直观体现国产大模型的最新发展进程 测量模型来源:月狐研究院 封闭题 开放题 5分 答案正确且有较完整的解读和推理过程 答案趋近完美,可在实际场景中直接使用 4分 答案正确但解读和推理较简单 答案较完美,基本可在实际场景中使用 3分 答案正确但无解读和推理过程 答案需人工微调后在实际场景中使用 2分 答案错误但有解读和推理过程 答案需要较多人工调整后在实际场景中使用 1分 答案错误且无解读和推理过程 答案完全不可在实际场景中使用 0分 回答不出来或无法提供答案 回答不出来或无法提供答案 评分规则 •封闭题主要采用接入API的方式进行自动化测试和评分•开放题通过专家团队评分•最终的智能化指数根据题目积分来计算 测试题库设置 •题目数量:500道•题型:包含封闭题、开放题•题目来源:C-Eval、清华社研究院、月狐研究院自主设计 评估对象 •评估对象为国内主流的拥有自主大模型 的对话式AIGC移动应用 文心一言app天工app通义千问app360智脑app讯飞星火app智谱清言app豆包app AIGC应用app智能化指数评估方法 测量模型来源:月狐研究院 PART02 评估结果与案例展示 智能体能力 4 2 0 •评估结果显示,文心一言app智能化综合指数位居第一,其次是讯飞星火app、豆包app等 •拆分二级指标来看,文心一言app在基础能力、安全合规、使用体验、生成质量、智能体能力各方面表现突出,除此之外,通义千问、 智谱清言app在基础能力方面也相对领先,讯飞星火、天工app在安全合规方面也展现出较明显的优势 AIGC应用app智能化指数排行 文心一言app 8.88 7.28 讯飞星火app 7.06 豆包app 7.03 通义千问app 智谱清言app 6.82 360智脑app 6.41 天工app 5.68 AIGC应用app智能化指数二级指标表现 安全合规 10 8 6 文心一言app 通义千问app 基础能力 讯飞星火app 豆包app天工app 360智脑app 使用体验 生成质量 智谱清言app 上下文理解能力 文心一言app具备更强的记忆力,在多轮对话情景下基本能够较顺畅地衔接上下文,生成更连贯、更具逻辑性的对话内容 01 AIGC应用app基础能力细分维度表现 文心一言app 豆包app 智谱清言app 通义千问app 天工app 讯飞星火app 360智脑app 内容创新性 多模态能力 10 8 6 4 2 0 内容实时性 上下文理解能力 02 多模态能力 文心一言app在多模态能力上的表现也较为突出,除了具备较强的图画生成能力,还支持在对话框上传图片和进行图片解析等功能,支持语音的输入和输出,用户可选择切换语音助手的声音,整体语音交流体验较顺畅 05 内容创新性 从内容的创造性、独特性、创意性等方面来看,目前生成式AI在内容创新性的能力上仍普遍较弱;相较之下,通义千问app内容创新性的表现相对突出,在一些需要创意写作(如品牌slogan设计)的场景下有较好的表现 多语言支持 03 多语言支持 在外语问题的理解和回答上,各家app表现差异不大,文心一言、360智脑、智谱清言等app相对突出 04 内容实时性 文心一言、通义千问、讯飞星火、豆包和智谱清言app能够根据指令提供最新的内容,如数据、新闻资讯、天气预报等 指令:我需要设计一个新版孙悟空的游戏角色,请帮我绘制一个草图 总结:文心一言app能够较好地理解指令,生成符合游戏画风的设计图,图片的质量和细节更精细,文生图能力突出 文心一言app通义千问app讯飞星火app 天工app 指令:我需要设计一个新版孙悟空的游戏角色,请帮我绘制一个草图 总结:豆包、360智脑、智谱清言等app也能够较好理解指令需求,但生成的图片在细节和精细度方面相对欠缺 豆包app360智脑app智谱清言app 使用成本 目前各家app均支持个人用户免费使用,使用门槛较低 01 AIGC应用app使用体验细分维度表现 文心一言app豆包app 智谱清言app 通义千问app 天工app 讯飞星火app 360智脑app 回答真实 性 使用成本 10 8 6 4 2 0 稳定性 02 响应速度 文心一言app在长字段输入、长字段输出、绘画作图、答题等速度相对较快,能够较快捷地响应用户需求,其次是讯飞星火和智谱清言app 04 回答真实性 大多数app输出的内容存在不同程度的幻觉问题(回答内容不真实),较典型的情况是360智脑app在一些封闭题回答中出现题目中没有提到的选项,天工app在一道出游行程规划的题目回答中,将广州描述成有雪景的城市;其中豆包app表现相对良好,在测试过程中未发现明显的幻觉问题 响应速度 03 稳定性 面对异常或未知输入(如在提示词中加入拼写错误的单词或近义词等), 各家app基本能够准确理解和输出,稳定性表现良好 •各家app在不同类型的内容生成上各有优势,其中文心一言app在逻辑推理、多轮行程规划、情感对话、角色扮演等场景下生成的内容质量更好,而通义千问app更擅长创意写作,在多轮行程规划场景上也有较好的表现,讯飞星火和360智脑app则在数学计算上表现突出,智谱清言app在专业知识问答、情商问答场景上获得最高分,豆包、360智脑app在专业知识问答上的表现也相对较强 AIGC应用app生成质量细分维度表现 文心一言app 通义千问app 讯飞星火app 豆包app 天工app 360智脑app 智谱清言app 创意写作 6.60 7.40 5.10 5.00 5.20 6.20 6.60 多轮行程规划 10.00 9.00 7.00 4.00 5.00 9.00 3.00 角色扮演 10.00 4.00 2.00 2.00 2.00 6.00 8.00 逻辑与推理 8.04 6.92 6.66 7.72 6.04 6.74 7.66 情感对话 9.00 6.00 4.00 5.00 5.00 5.00 5.00 情商问答 9.30 7.90 8.20 8.30 6.60 8.00 9.70 数学与计算 6.57 6.65 7.59 6.65 5.19 7.24 5.62 专业知识问答 8.00 6.80 6.47 8.42 5.53 8.22 8.61 逻辑与推理问题回答示例:如果沙拉的女儿是我儿子的母亲,我是男的,我与沙拉是什么亲属关系? 总结:文心一言、讯飞星火和360智脑app均能推理出正确答案,其中文心一言app还给出较详细的分析过程,逻辑推理能力优势显现 文心一言app 首先,我们根据问题描述来分析关系: “沙拉的女儿是我儿子的母亲”:这里我们可以知道,沙拉的女儿是我的妻子。 “我是男的”:这一点对确定关系没有直接影响,但为了完整性我们将其考虑进来。 根据上述信息,我们可以明确以下关系: 沙拉的女儿是我的