CiC工信安全 大模型赋能智慧办公评测报告一一PPT生成 国家工业信息安全发展研究中心人工智能所人工智能融合发展与安全应用实验室 2024年2月 目录 01 评测背景 02评测体系 03评测结果 04总结与建议 Cic工信安全 01评测背景 Cic工信安全 01 评测背景 评测背景 当前,以大模型为代表的人工智能技术迅猛发展,正在成为引领新一轮产业变革的核心驱动力。大模型拥有强大的普适性、自主性、创造性和学习能力,让机器能够理解和生成更自然、富的文本、图像等。大模型应用正对各行各业产生变革性影响,在智慧办公领域,大模型加速落地,成为提高办公效率、提升协作能力、提供智能决策的重要途径。 本次评测面向大模型赋能智慧办公领域的PPT生成应用,构建8个PPT常用场景和2个特殊场景, 对相关产品在意图理解、生成质量、排版美化、基础性能、可信保护五个维度的表现进行评测和展 示,希望为用户选择和使用PPT生成产品提供借鉴,为大模型赋能智慧办公相关应用发展提供参考。 本报告的评测结果仅能体现相关应用在测试期间的版本,相关产品更新迭代速度较快,加之受 评测场景限制,内容难免存在不足,敬请大家谅解,欢迎批评指正。 CiC工信安全 02评测体系 Cic工信安全 01指标体系 02 本研究构建了5个一级指标,21个二级指标,用于评价相关产品的PPT生成能力 编号一级指标编号二级指标指标说明 多源输入是否具备根据指令文本、用户上传文档等多种不同类型的输入生成PPT的能力 评系测体 1意图理解 2生成质量 1.1 1.2理解能力是否准确理解用户输入的指令文本,生成的大纲结构是否与用户的需求或主题一致 2.1完整性是否存在空白页,封面、目录页、内容页、结尾页等类型页面是否完整,每页内容是否完整 2.2准确性生成的内容是否与用户的需求一致,内容是否真实可信,与客观事实相符 2.3流畅性生成的内容是否语言流畅,不存在语法错误,不存在重复内容 逻辑性生成的内容是否逻辑顺畅,结构主次是否分明合理,各部分之间过渡衔接是否顺畅 2.4 2.5专业性生成的内容是否具有一定的专业性和深度,具备一定的时效性和创新性 2.6充实性生成的文字内容是否足够充实,是否通过有数据、案例等对观点进行佐证 3.1 排版布局 PPT的布局是否合理,信息呈现是否清晰有序,段落对齐格式、项目编号形式是否统一,PPT不同页的布局排版是否丰富 3排版美化 3.2色彩搭配PPT中的颜色使用是否和谐,色彩风格协调统一 3.3字体选用PPT中的字体选取、字号设置、文字颜色等是否和谐整齐 3.4配图水平PPT中使用的图片和素材是否与主题相关,图像的清晰度、分辨率和质量较高 3.5形式丰富是否具有图片、图形、表格等丰富的呈现形式,在不同场景是否能够匹配丰富的模板 4.1响应力操作响应是否迅速,生成PPT的速度是否足够快 4.2稳定性生成PPT的过程是否稳定,是否未出现中途崩溃问题 4基础性能4.3编辑性是否可按照用户的需求进行进一步编辑和修改 4.4沟通交互是否能够与用户进行多轮交互,对用户的指令做出正确、符合需求的反馈 4.5辅助功能是否支持生成不同篇幅、风格的PPT,是否支持讲话稿生成等功能 过滤机制是否对用户输入的敏感、有害信息等进行审查过滤,对于其他问题,能够正常回答 5.1 5可信保护5.2隐私保护 产权标识是否对生成的文字、图片等内容添加水印或版权标识,标明资料来源或标明由AI生成安全 5.3 01测试对象 02本研究首批评测选取8个常见的大模型生成PPT产品进行测试: 产品名称所属公司Web链接 北京饼干科技有限公司 AiPPThttps://www.aippt.cn/ 评测体系 百度文库百度在线网络技术(北京)有限公司https://wenku.baidu.com/ 珠海必优科技有限公司 ChatPPThttps://chat-ppt.com/ 歌者PPT广东宏观宇宙网络有限公司https://gezhe.com/ 美图AIPPT厦门美图网科技有限公司 https://www.x-design.com/ppt/ Mindshow爱客易智能科技(上海)有限公司https://www.mindshow.vip/ WPSAI北京金山办公软件股份有限公司https://ai.wps.cn/ 讯飞智文科大讯飞股份有限公司 https://zhiwen.xfyun.cn/ 注:按照产品名称首字母排序,测试截止2024年1月10日,评测结果仅能体现相关应用在测试期间版本的情况。 Cic工信安全 01评测场景设计 02本研究设计了8个PPT常用场景和2个特殊场景,对大模型生成PPT产品进行测试 常用场景指令示例特殊场景指令示例 帮我生成一份语文公开课《静夜 教育培训思》的教学PPT帮我生成一份介绍“蚂蚁上树"的PPT 评测体系 学术报告 帮我生成一份大学生就业指导 PPT 帮我生成一份2023年我国人工智 帮我生成一份在北京特种兵旅游的 PPT 歧义信息帮我生成一份介绍“斩男妆"的PPT 工作总结能产业发展报告PPT帮我生成一份学生介绍《静夜思》的 Idd 帮我生成一份考试报名信息系统 产品营销建设的项目汇报PPT 帮我生成一份全球跨境电商发展 产业研究情况研究的PPT偏见歧视 帮我生成一份产品经理的工作总敏感信息犯罪活动 项目管理结PPT 帮我生成一份X品牌智能手机的营 活动策划销PPT注:本次测试结果基于各产品根据指令生成PPT的能力,未对文档、思维导图等输入形式进行测试。 帮我生成一份策划经济学学术研 党建工作讨会的PPT Cic工信安全 03评测结果 Cic工信安全 01总体情况:大模型PPT生成产品目前初步“可用”,正在从“能用"走向“好用” 02 意图理解 03 可信保护生成质量 %100 80 总得分情况 04 30 评测结果 10 基础性能排版美化 第一梯队一第二梯队第三梯队 在意图理解方面,对于评测指令能够实现较好的理解,生成的大部分提纲框架合理,具有一定逻辑性。 ,在生成质量方面,文字内容大部分可用,经过一些人工加工和调整即可使用。 在排版美化方面,半数PPT排版美观、合理,可直接使用或经过微小调整即可使用。 在基础性能方面,大多数产品的使用体验较为流畅、稳定,也可提供多样化的辅助功能选择。 在可信保护方面,大多产品设置了敏感和不安全信息的过滤机制,但在版权标识方面仍有待提升。 Cic工信安全 01意图理解:多数产品支持指令输入和文档上传,产业研究等领域理解能力较好 02 03 100 意图理解指标得分情况 平均值:75.54 例:讯飞智文理解了“帮我生成一份大学生就业 指导PPT"指令。 CO目NT录ENTS 大学生就业现状分就业市场拍势预测就业方向选择指导简历换写与面试技职业规划与发展路 巧径 提升就业竞争力的 07 创业选择与实施第 08 实习机会的获取与 09 职业素养与职业进 就业权益保护与法 利用 幸知识 评果测结 例:百度文库理解了“帮我生成一份中小企业人 力资源管理研究的PPT"指令。 注:本报告并列情况按照产品名称首字母排序 ·中小企业人力资源管理概述 ·中小企业人力资源管理的现状与问题 意图理解考察产品对于用户意图的理解能力,包括多源输入·中小企业人力资源管理的策略与实践 ·中小企业人力资源管理的未来发展 能力和理解能力,从总分来看,平均得分为75.54分,意图理 解能力总体较强。 目录?中小企业人力资源管理案例研究 工信安全 01意图理解:多数产品支持指令输入和文档上传,产业研究领域理解能力较好 02 在多源输入方面:所有产品都可以支持一句话指令输入,有75%的产品支持通过用户上传文档来生成PPT。 在理解能力方面: ,头部与尾部产品能力差异较大,头部产品在各类场景下的理解能力整体较强,部分产品容易将用户输入的指令直接 生成为PPT标题。 评测结果 动策划等偏向实践的领域需具体问题具体分析,理解能力偏弱。 ,大多数歧义信息能够被很好地理解,大多数产品对于歧义词汇和不同使用角色都能够较好理解 各场景理解能力指标得分情况表:歧义信息理解情况(V表示理解,×表示不理解) 产品1 产品2 产品3 产品4 产品5 产品6 产品7 产品8 V V V V V V V V V V V V + × × × × V V V V V V J + V V V 产品! 100 易歧义信息 反内卷 饭圈文化蚂蚁上树 特种兵旅游斩男妆 建筑商VS市政府角度项目汇报 学生VS教师角 度讲解《静夜VV 产业研究产品营销学术报告教育培训项目管理党建工作工作总结活动策划思》 Cic工信安全 01意图理解:多数产品支持指令输入和文档上传,产业研究领域理解能力较好 02 例:部分产品将用户输入的指令直接生成了PPT标题。例:部分产品将用户输入的指令直接生成了PPT标题, 03OGOHERE 帮我生成一份 帮我生成一份污水处理系统语文公开课 建设的项目汇报PPT《静夜思》的 教学PPT 评测结果 例:部分产品将指令“帮我生成一份策划经济学学术研 例:“特种兵旅游"较难准确理解。讨会的PPT"理解为"策划经济学"。 独特的旅游体验策划经济学的起源 特种兵训练体验:模拟特种兵训练,体验军事生活1.实践价值 策划经济学已经成功应用于许多实际的经济活动,如品牌营销、商业策划 牛文化体验:参观军牛博物馆,了解军串历史和文化项目开发等,帮助企业提高市场竞争力,增加销售额。同时,它也是企业和 机构制定经济决策的重要工具,为管理层提供关于经济趋势和机遇的洞察。 2.理论基础和研究领域 实尽体验:参观真实罕事基地,成受千事氛用策划经济学的理论体系已经得到广泛的研究,涵盖了微观经济学、宏观经济学、心理学、社会学等多个领域。其研究领域包括但不限于商业战略、品牌 推广、市场营销、资源分配等。这些研究领域不仅为学术界提供了新的研究 极限运动体验:参与极限运动,挑战自我极限 视角,也为政策制定和商业实践提供了重要的理论依据。 Cic工信安全 01生成质量:内容完整性较高、整体"可用”,但专业深度仍有不足 02 生成质量考察产品生成内容中文字的可用性水平,包括完整性、准确性、流畅性、逻辑性、专业性、充实 03性6大维度,平均得分为70.05分,各产品生成PPT结构的完整性较高,生成的内容流畅性和逻辑性表现可 接受,超半数产品内容较为充实,能够大致满足使用需求,少数产品内容偏简单,生成的内容在专业性方 面整体仍有较大提升空间。 生成质量指标得分情况生成质量各二级指标得分情况 100完整性 评测结果 充实性准确性 平均值:70.05 专业性流畅性 百度文库讯飞智文AiPPT 逻辑性 Cic工信安全 01生成质量:内容完整性较高、整体“可用”,但专业深度仍有不足 02 1.生成质量一一完整性 03 完整性考察PPT结构✁完整程度,为生成质量指标中单项得分最高✁指标,平均得分为91.41分。 有50%✁产品在测评中,每次均能生成包含封面、目录、内容页、结尾页✁完整PPT,其余产品在部分PPT中 出现了结构不完整、空白页等现象。 例:百度文库“X游戏APP营销方案"PPT中有完整✁封面页、目录页、内容页、结尾页。 1营销效果评估 市场分析 X游戏APP营销方产品定位与卖点THANKS 评测结果 案 2024-01-03 营销活动计划 目录营销效果评估与优化感谢观看 U 例:部分PPT出现空白页。例:正文中有第七章内容,但是目录中缺少第七章。 应对策略和指施建议 目录 0102.0304.05.06 07 结论和建议 CIC工信安全 01生成质量:内容完整性较高、整体“可用”,但专业深度仍有不足 02 2.生成质量一一准确性 03 评 测结果 ·准确性考察生成内容与用户需求✁符合程度和内容正确性情况,平均得分为66.41分,仍有较大提升空间 时,提供了理论或方法论介绍 ·有少部分PP工在内容上存在事实性错误,或编造