热门搜索：

AIGC应用app智能化评测报告

信息技术2024-03-22-moonfoxL***

AI智能总结

根据月狐iAPP（MoonFox iApp）的数据显示，2023年生成式AI移动应用全网安装渗透率达到了6.7%，MAU已超过2000万。其中，文心一言、天工、讯飞星火、豆包等主流app产品用户规模呈现快速增长态势。此外，用户对于AIGC产品的使用兴趣度不断提升，生成式AI普及范围持续扩大。AIGC应用场景图谱包括百姓AI、讯飞智能翻译、百度文库、息流AI等。在评估体系中，一级指标包括基础能力、多模态能力、多语言支持、内容实时性、内容创新性、使用体验、使用成本、响应速度、稳定性、生成质量、逻辑与推理、情感对话、情商问答与人际交往、数学与计算、专业知识问答、智能体能力、个性化程度、角色还原度、交互沉浸度和内容契合度。

2023AIGC应用app智能化评测报告月狐数据（MoonFoxData）2024年3月深圳市和讯华谷信息技术有限公司版权所有©2011-2024粤ICP备12056275号-13 CONTENTS 0研究背景与评估体系介绍 02评估结果与案例展示 03趋势与展望 PART0 研究背景与评估体系介绍研究背景：AIGC产品快速迭代，普及率持续提升 •2023年AI大模型迎来创新浪潮，各大厂商密集推出和迭代基于大模型的AIGC应用产品，应用场景覆盖AI对话、写作、学习、媒体创作、办公商务等领域，满足用户多功能需求 •与此同时，用户对于AIGC产品的使用兴趣度不断提升，生成式AI普及范围持续扩大，数据显示，截止2023年12月，生成式AI移动应用全网安装渗透率达6.7%，MAU已超2000万，其中文心一言、天工、讯飞星火、豆包等主流app产品用户规模呈现快速增长态势截止2023年12月生成式AI移动应用全网安装渗透率6.7%,MAU达2,012.6万办公商务办公通用百度文库钉钉AI WPSAI通义听悟 AiPPT美图AIPPT庖丁解文GPTBOTS.AI 电商设计超会AI摹小仙水母智能设计筑绘通法律编程海瑞智法法小开CodeGeeXCopilot 写作辅助笔灵AI写作小鱼AI写作息流AI 光速写作AI论文写作NotionAI AIGC应用场景图谱对话通用文心一言通义千问豆包讯飞星火天工智谱清言360智脑ChatGPT 多媒体创作闪剪万彩AI通义舞王吐司TusiArt 腾讯智影怪兽AI数字人百姓AI妙鸭相机学习/翻译星火语伴AI口语陪练快问AI 海豚AI学有道速读讯飞智能翻译 x10000 主流AIGC应用appMAU变化文心一言app 天工app 豆包app 智谱清言app 讯飞星火app 800 600 400 200 0 数据来源：月狐iAPP（MoonFoxiApp）；取数周期：2023.07-2023.12 AIGC应用app智能化评估体系介绍 •目前市面AIGC产品众多，且底层技术和产品功能的更新迭代速度较快，为此本报告推出AIGC应用app智能化评估体系，旨在通过量化指标测量AIGC应用产品在技术能力、使用体验上的优势，帮助广大用户更直观地了解和选择AIGC产品一级指标二级指标指标解释基础能力上下文理解能力是否能理解用户输入的上下文，生成更连贯、具有逻辑性的回答多模态能力包括绘画、图片解析、语音交流方面的能力多语言支持对外国语问题的理解和回答情况内容实时性是否能够提供最新的信息、数据内容创新性生成的内容是否具备创造性、独特性、创意性等使用体验使用成本个人用户能否免费使用app产品功能响应速度根据长字段指令的回应速度、长字段输出的速度、封闭题答题时间、作图时间等综合评估稳定性面对异常/未知输入（如在提示词中加入拼写错误的词、近义词等）是否能够准确理解和输出回答真实性输出的内容出现幻觉/不真实情况的频次安全合规对敏感词的检测严格度过滤潜在危险/敏感信息，拒绝回答或报错的频次，反映对敏感词检测的严格程度不合规问题回应对涉及违法犯罪、道德伦理、隐私财产、个人安全等问题的反应和回答情况一级指标二级指标指标解释生成质量创意写作包括自媒体、编剧、新闻稿、市场营销、行业分析等方面的文稿创作能力多轮行程规划是否能根据指令进行行程重新规划的能力角色扮演是否能够支持扮演特定角色，并与用户进行流畅、沉浸式对话的能力逻辑与推理包括简单推理、复杂推理、分析/总结/归类、代码编程等能力情感对话是否支持代入特定人设（虚拟情侣），与用户进行流畅对话、提供情感支撑的能力情商问答与人际交往相关的情商问题的回应能力数学与计算包括初高中数学题、高数题、复杂计算题等回答情况专业知识问答对历史、政治、文学、物理、生物、化学等学科知识问题的回答情况智能体能力个性化程度智能体创建设定条件的多样化，反映用户创建智能体的自由度角色还原度名人、明星、动漫人物等智能体在形象、声音、语气、性格等方面对本体的还原程度交互沉浸度从视、听、说方面智能体是否能给用户带来沉浸的交互体验内容契合度智能体生成的内容多大程度上与设定的条件特征契合 •AIGC应用app智能化评估体系由基础能力、使用体验、生成质量、智能体能力、安全合规5个一级指标以及23个二级指标构成，其中智能体能力是我们基于大模型技术的最新发展趋势所增设的评测维度，智能体是指以AI为核心构建的一个集合立体感知、全域协同、精准判断、持续进化等特征的智能系统，是各家大模型厂商目前着重布局的应用场景，基于智能体功能用户可以按照自己的需求打造出更具个性化的AIGC方案，因此加入智能体能力评测指标，一方面能够更加全方位地测量AIGC应用产品的能力，除了大模型的底层能力之外，也能测量到大模型技术的应用场景落地能力，另一方面能够直观体现国产大模型的最新发展进程测量模型来源：月狐研究院封闭题开放题 5分答案正确且有较完整的解读和推理过程答案趋近完美，可在实际场景中直接使用 4分答案正确但解读和推理较简单答案较完美，基本可在实际场景中使用 3分答案正确但无解读和推理过程答案需人工微调后在实际场景中使用 2分答案错误但有解读和推理过程答案需要较多人工调整后在实际场景中使用 1分答案错误且无解读和推理过程答案完全不可在实际场景中使用 0分回答不出来或无法提供答案回答不出来或无法提供答案评分规则 •封闭题主要采用接入API的方式进行自动化测试和评分•开放题通过专家团队评分•最终的智能化指数根据题目积分来计算测试题库设置 •题目数量：500道•题型：包含封闭题、开放题•题目来源：C-Eval、清华社研究院、月狐研究院自主设计评估对象 •评估对象为国内主流的拥有自主大模型的对话式AIGC移动应用文心一言app天工app通义千问app360智脑app讯飞星火app智谱清言app豆包app AIGC应用app智能化指数评估方法测量模型来源：月狐研究院 PART02 评估结果与案例展示智能体能力 4 2 0 •评估结果显示，文心一言app智能化综合指数位居第一，其次是讯飞星火app、豆包app等 •拆分二级指标来看，文心一言app在基础能力、安全合规、使用体验、生成质量、智能体能力各方面表现突出，除此之外，通义千问、智谱清言app在基础能力方面也相对领先，讯飞星火、天工app在安全合规方面也展现出较明显的优势 AIGC应用app智能化指数排行文心一言app 8.88 7.28 讯飞星火app 7.06 豆包app 7.03 通义千问app 智谱清言app 6.82 360智脑app 6.41 天工app 5.68 AIGC应用app智能化指数二级指标表现安全合规 10 8 6 文心一言app 通义千问app 基础能力讯飞星火app 豆包app天工app 360智脑app 使用体验生成质量智谱清言app 上下文理解能力文心一言app具备更强的记忆力，在多轮对话情景下基本能够较顺畅地衔接上下文，生成更连贯、更具逻辑性的对话内容 01 AIGC应用app基础能力细分维度表现文心一言app 豆包app 智谱清言app 通义千问app 天工app 讯飞星火app 360智脑app 内容创新性多模态能力 10 8 6 4 2 0 内容实时性上下文理解能力 02 多模态能力文心一言app在多模态能力上的表现也较为突出，除了具备较强的图画生成能力，还支持在对话框上传图片和进行图片解析等功能，支持语音的输入和输出，用户可选择切换语音助手的声音，整体语音交流体验较顺畅 05 内容创新性从内容的创造性、独特性、创意性等方面来看，目前生成式AI在内容创新性的能力上仍普遍较弱；相较之下，通义千问app内容创新性的表现相对突出，在一些需要创意写作（如品牌slogan设计）的场景下有较好的表现多语言支持 03 多语言支持在外语问题的理解和回答上，各家app表现差异不大，文心一言、360智脑、智谱清言等app相对突出 04 内容实时性文心一言、通义千问、讯飞星火、豆包和智谱清言app能够根据指令提供最新的内容，如数据、新闻资讯、天气预报等指令：我需要设计一个新版孙悟空的游戏角色，请帮我绘制一个草图总结：文心一言app能够较好地理解指令，生成符合游戏画风的设计图，图片的质量和细节更精细，文生图能力突出文心一言app通义千问app讯飞星火app 天工app 指令：我需要设计一个新版孙悟空的游戏角色，请帮我绘制一个草图总结：豆包、360智脑、智谱清言等app也能够较好理解指令需求，但生成的图片在细节和精细度方面相对欠缺豆包app360智脑app智谱清言app 使用成本目前各家app均支持个人用户免费使用，使用门槛较低 01 AIGC应用app使用体验细分维度表现文心一言app豆包app 智谱清言app 通义千问app 天工app 讯飞星火app 360智脑app 回答真实性使用成本 10 8 6 4 2 0 稳定性 02 响应速度文心一言app在长字段输入、长字段输出、绘画作图、答题等速度相对较快，能够较快捷地响应用户需求，其次是讯飞星火和智谱清言app 04 回答真实性大多数app输出的内容存在不同程度的幻觉问题（回答内容不真实），较典型的情况是360智脑app在一些封闭题回答中出现题目中没有提到的选项，天工app在一道出游行程规划的题目回答中，将广州描述成有雪景的城市；其中豆包app表现相对良好，在测试过程中未发现明显的幻觉问题响应速度 03 稳定性面对异常或未知输入（如在提示词中加入拼写错误的单词或近义词等），各家app基本能够准确理解和输出，稳定性表现良好 •各家app在不同类型的内容生成上各有优势，其中文心一言app在逻辑推理、多轮行程规划、情感对话、角色扮演等场景下生成的内容质量更好，而通义千问app更擅长创意写作，在多轮行程规划场景上也有较好的表现，讯飞星火和360智脑app则在数学计算上表现突出，智谱清言app在专业知识问答、情商问答场景上获得最高分，豆包、360智脑app在专业知识问答上的表现也相对较强 AIGC应用app生成质量细分维度表现文心一言app 通义千问app 讯飞星火app 豆包app 天工app 360智脑app 智谱清言app 创意写作 6.60 7.40 5.10 5.00 5.20 6.20 6.60 多轮行程规划 10.00 9.00 7.00 4.00 5.00 9.00 3.00 角色扮演 10.00 4.00 2.00 2.00 2.00 6.00 8.00 逻辑与推理 8.04 6.92 6.66 7.72 6.04 6.74 7.66 情感对话 9.00 6.00 4.00 5.00 5.00 5.00 5.00 情商问答 9.30 7.90 8.20 8.30 6.60 8.00 9.70 数学与计算 6.57 6.65 7.59 6.65 5.19 7.24 5.62 专业知识问答 8.00 6.80 6.47 8.42 5.53 8.22 8.61 逻辑与推理问题回答示例：如果沙拉的女儿是我儿子的母亲，我是男的，我与沙拉是什么亲属关系? 总结：文心一言、讯飞星火和360智脑app均能推理出正确答案，其中文心一言app还给出较详细的分析过程，逻辑推理能力优势显现文心一言app 首先，我们根据问题描述来分析关系： “沙拉的女儿是我儿子的母亲”：这里我们可以知道，沙拉的女儿是我的妻子。 “我是男的”：这一点对确定关系没有直接影响，但为了完整性我们将其考虑进来。根据上述信息，我们可以明确以下关系：沙拉的女儿是我的

点击免费查看完整报告

你可能感兴趣

AIGC应用app智能化评测报告

你可能感兴趣

2024年AIGC重构应用开发智能化新格局报告

券商App行情刷新及交易体验评测报告-202102

券商App行情刷新及交易体验评测报告-202205

券商App行情刷新及交易体验评测报告-202101

券商App行情刷新及交易体验评测报告-202108