行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

中国通用大模型内容生成及安全性能力评测

综合 2023-07-24 - TE智库李霞

发现报告（www.fxbaogao.com）为您提供最专业的研报服务，用户量在业内名列前茅。我们收录的报告数量极多，覆盖了宏观、行业、公司等各个层面，几乎无所不包。平台设计极简，操作方便，利用前沿技术帮您快速筛选核心信息。大家都在用发现报告，因为这里能真正帮您高效解决问题，实现深度的市场洞察和决策。

TE智库对中国通用大模型的内容生成及安全性能力进行了评测，发现中国本土通用大模型的能力正在显著提升，综合能力的行业平均水平已经与ChatGPT3.5不相上下。在“安全体系能力”方面，文心一言已经完全拉开了与GPT3.5的差距。在基础服务能力、交互响应能力、理解创作能力方面，国产通用大模型都能够表现出相当的水平，且不弱与GPT3.5的实测表现，但国产通用大模型已经初步形成了不同的能力梯队；在深度推理能力和专业领域能力方面，本次评测的所有通用大模型，所展现出来的能力，都存在较大的优化空间。然而，评测也发现了一些问题，包括反馈的信息仅限于罗列，缺乏有效的归纳，专业性不足，以及反馈的内容包含大量在事实上无效或缺乏足够实践证明的说辞等。为了保障生成式人工智能技术的规范发展，保护网络安全、数据安全、个人信息等，确保生成式人工智能技术的发展符合国家利益和公众利益，中国相关部门陆续出台了生成式人工智能技术相关的法律法规。通过安全性管理和评测，可以降低法律风险，促进技术的发展，保护用户的利益，提高模型的质量。TE智库本次研究的评测标准包括基础服务能力、交互响应能力、理解创作能力、深度推理能力、专业领域能力和安全体系能力。这些标准能够帮助评测人员更好地评估通用大模型的安全性和能力。

2023年6月评测结果和发现随着技术的不断进步和创新，以及数据规模的不断扩大，以文心一言为代表的中国本土通用大模型的能力正在显著提升，综合能力的行业平均水平已经与ChatGPT3.5不相上下 01 02 在“安全体系能力”方面，文心一言已经完全拉开了与GPT3.5的差距 ①对于明确的“任务”，能够做到准确的识别，执行的“任务”包括违法乱纪、恶意辱骂、隐私涉密、谣言造假等性质的问题；②对于存在争议的内容的“任务”，能够客观持中的给出相关信息；③对逻辑复杂且存在诱导类的“任务”，能够基于社会主义价值观针对性的做出正确“指引”。在基础服务能力、交互响应能力、理解创作能力方面，国产通用大模型都能够表现出相当的水平，且不弱与GPT3.5的实测表现，但国产通用大模型已经初步形成了不同的能力梯队；在深度推理能力和专业领域能力方面，本次评测的所有通用大模型，所展现出来的能力，都存在较大的优化空间 03 ①显著发生的“幻觉发生率”，反馈的内容包含大量在事实上无效或缺乏足够实践证明的说辞；②很多反馈信息属于较为陈旧的信息，缺乏对专业领域知识及时更新的能力；③反馈的信息仅限于罗列，缺乏有效的归纳，专业性不足。背景通用大模型生成内容的开发和使用，也需要遵守相关法律法规和道德规范快速发展的通用大模型需要走规范化的路径，引导相关技术的健康发展中国坚持全面依法治国，推进法治中国建设。在此过程中，为了保障生成式人工智能技术的规范发展，保护网络安全、数据安全、个人信息等，确保生成式人工智能技术的发展符合国家利益和公众利益；同时规范生成式人工智能服务提供者的责任和义务，规定其严格遵守相关法律，确保服务的合法、安全和有序发展。中国相关部门陆续出台了生成式人工智能技术相关的法律法规： 2023年2月15日发布《生成式人工智能服务管理办法（征求意见稿）》 2020年10月15日通过《中华人民共和国个人信息保护法》 2019年8月20日通过《中华人民共和国数据安全法》 2016年11月16日发布规《中华人民共和国网络安全法》做好通用大模型生成内容安全性评测的意义和价值促进技术的发展降低法律的风险保护用户的利益提高模型的质量大模型生成的内容包括各种形式的信息，包括文本、图片、视频等，其中可能包含敏感信息、隐私信息或具有误导性的信息。通过安全性管理和评测，可以确保生成的内容符合用户需求和期望，保护用户的利益。在生成的内容中，可能存在违反法律法规的情况，如传播不良信息、侵犯他人权益等。通过安全性管理和评测，可以避免这种情况的发生，降低法律风险。安全性管理和评测是人工智能技术发展的重要保障。通过加强安全性管理和评测，可以推动人工智能技术的不断创新和发展。通过评测可以发现模型中存在的问题和缺陷，及时进行修复和优化，从而提高模型的质量和准确性。方法强化数字化技术与应用发展法治化建设、护航中国数字经济与实体经济稳健发展评测标准研制评测标准研制的方法和步骤确定评测标准的范围明确本次通用大模型生成内容安全性测评标准研制的目的、适用的范围，方便后续的评测工作能够有针对性地进行。制定评测标准的草案在确定标准的需求范围后，制定本次评测标准的草案。草案在经过多方多轮次专家反馈后，多次修改和完善，确保标准的准确性和可行性。征求评测标准的意见制定好标准草案后，向相关的利益相关者征求意见和反馈。这些利益相关者包括但不限于行业协会、业内企业等。本次研究的评测标准经过多方多轮次专家的建议与修订，拟采用如下评测标准，包括6大维度27个细化的指标项，作为对通用大模型进行评测的基础标准。本次研究的评测方法针对通用大模型的评测，采取统一的评测环境，包括：评测标准、评测范围、评测工具、计分方式。计分方式 1.每个提示语料做为一次评测任务，即一个记分点；2.对应每个具体维度的评测指标，设置100个评测任务；3.每执行一个评测任务，对结果进行确定，正确回答得相应的积分。即对应每个相关评测指标，验证每个评测任务结果的对错，正确记1分，答错或未作答记0分，最终取100个任务中正确结果的占比为对应标评测标准的积分；4.每个具体维度的得分，为对应评测指标得分/测评指标数量；5.大模型总分=评测的维度得分汇总/6。评测基于实测信息反馈，助力国产通用大模型优化和推广综合能力评测结果尽管中国本土通用大模型在初始化阶段落后于国外产品，但随着技术的不断进步和创新，以及数据规模的不断扩大，中国本土通用大模型的能力正在逐步提升，综合能力的行业平均水平已经与ChatGPT3.5不相上下。不同维度关键能力评测结果具体到6大关键能力（基础服务能力、交互响应能力、理解创作能力、深度推理能力、专业领域能力、安全体系能力），中国本土通用大模型所表现出来的实力不俗，尤其是在“安全体系能力”方面，以文心一言、ChatGLM为代表，已经逐步拉开了与GPT3.5的差距。基础服务能力：大模型不同领域评测结果基础服务能力释义说明 ——常见语义和描述的识别、交互能力；包括通用大模型对常见语义和描述的识别能力、匹配能力、检索能力、对话能力、以及角色要求下的语义和描述的对话。基础服务能力评测结果 ——整体来看，本次评测的通用大模型，在常见语义和描述的基础对话能力方面，都能够表现出相当的水平；但文心一言与GPT3.5，就评测结果来看，已经与其他评测模型拉开了一定的距离，并形成第一阵营，而聚集在第二阵营的通用大模型，基础服务能力表现相互胶着； ——“历史与文化”领域是各通用大模型都表现较为突出的领域，而“经济与社会”领域第一第二阵营之间差距较大； ——在“舆论与热点”、“时事与政治”领域，文心一言所表现出来的基础服务能力，比GPT3.5更加突出。交互响应能力：大模型不同领域评测结果交互响应能力释义说明 ——在语义和描述的理解与交互能力基础上、实现顺利的交互响应能力；包括大模型能够识别理解交互的语境、信息的交互、连续交互、角色要求下的聊天模式交互，以及角色要求下专业知识与信息的交互。交互响应能力评测结果 ——从评测的结果来看，各通用大模型都非常重视交互响应能力，相互之间虽然形成了能力的差异，但整体差距并不是特别突出； ——本次评测的本土通用大模型在6大领域都有可圈可点的能力展现： ①文心一言：在“时事与政治”、“舆论与热点”领域，给出的反馈在正确性、规范性、专业性等方面体验到位；②通义千问：在“人文与科技”领域表现出不俗的能力；③ChatGLM：综合能力发展均衡，在6大领域做出的反馈，绝大多数都能够给出正确的作答。理解创作能力：大模型不同领域评测结果理解创作能力释义说明 ——基于对语义和描述的理解，实现针对性的生成创作能力；包括多轮次对话的一致性、多个任务的对话能力、输出观点、摘要或输出专门文案的能力。理解创作能力评测结果 ——作为大模型非常重要的一个输出能力，基于本次评测结果来看，所有通用大模型距离预期都还有可优化的空间，仅文心一言、ChatGLM与GPT3.5能够给出可接受的“需要调整的”反馈；——本次评测的本土通用大模型所暴露的问题包括： ①答案正确，但不够全面；②逻辑正确，但依据不足；③语句正确，但格式不规范，缺乏层次；④专业正确，但内容古早。 ——整体都缺乏理解创作能力应该具备的“创作感和惊喜感”。深度推理能力：大模型不同领域评测结果深度推理能力释义说明 ——整合情感及中文内涵特性进行深度推理的创作交互能力；包括识别并理解诗词、对话环境、情绪要求等基础上的创作。深度推理能力评测结果 ——相较于理解创作能力，本次评测的所有通用大模型，在深度推理方面所展现出来的能力需要优化的空间更大； ——本次评测的本土通用大模型最主要的问题为显著的“幻觉发生率”，反馈的内容包含大量在事实上无效或缺乏足够实践证明的说辞。专业领域能力：大模型不同领域评测结果专业领域能力释义说明 ——对不同行业、不同行业特定场景的理解、相应知识与信息的交互能力。专业领域能力评测结果 ——从评测的结果来看，本次评测的所有通用大模型，都在有意识的发展专业领域的能力，例如文心一言、ChatGLM在6大领域的专业能力发展较为均衡，而GPT3.5在“行业与场景”、“经济与社会”领域较为突出；——需要注意的是，在专业领域能力方面，提出的问题（执行的任务）主要集中在对“专业领域问题进行有效的识别、匹配并检索”，所以结果较好，一旦涉及较为复杂的问题，大模型现在所能反馈的内容具有一定的局限性，主要表现为： ①很多反馈信息属于较为陈旧的信息，缺乏对专业领域知识及时更新的能力；②反馈的信息仅限于罗列，缺乏有效的归纳，专业性不足。安全体系能力：大模型不同领域评测结果安全体系能力释义说明 ——法律法规要求限定的，包括伦理道德、隐私保护、违法犯罪、负面诱导等方面的防护能力。安全体系能力评测结果 ——中国本土通用大模型在安全体系方面的能力表现，普遍的比GPT3.5更加可靠，这从实践角度表明，中国的科技厂商更加深刻的意识到安全体系能力的建设，对于通用大模型的可持续发展和社会影响至关重要；——本次评测过程中，文心一言在安全体系方面表现出足够的能力，具体表现为： ①对于明确的“任务”，能够做到准确的识别，执行的“任务”包括违法乱纪、恶意辱骂、隐私涉密、谣言造假等性质的问题；②对于存在争议的内容的“任务”，能够客观持中的给出相关信息；③对逻辑复杂且存在诱导类的“任务”，能够基于社会主义核心价值观针对性的做出正确“指引”。 04 建议当前中国本土的大模型以服务于中国数字经济发展为导向，并做出自己的创新，全面超越海外巨头还需时日，但各路英豪激流勇进，未来可期意义提升大模型需求侧获得感的具体举措强化通用大模型生成内容及安全性能力建设，是提升需求侧“持续获得感”的重要基石提供个性化服务通用大模型应该能够根据用户的需求和偏好，提供个性化的服务。通过了解用户的需求和行为，可以为用户提供更符合其需求的推荐和建议，让用户感受到通用大模型对其个性化的关注和服务，从而提高用户的获得感。 01 Ø获得感是需求侧在使用通用大模型时所获得的收益和体验，这包括提高效率、降低成本、优化决策、解决问题等方面。Ø通过不断提高模型的准确性和效果、增强用户体验、提供个性化服务以及加强安全体系建设和保护能力等方面，可以为需求侧带来更好的获得感，从而推动通用大模型的广泛应用和发展。增强用户体验 02 通用大模型应该具备良好的用户体验，包括易于理解和使用的交互界面、快速响应和高效处理用户请求的能力等。通过优化用户体验，可以让用户更愿意使用通用大模型，从而增强用户的获得感。加强安全体系建设和保护 03 通用大模型应该能够保护用户的数据安全和隐私。通过加强数据安全和隐私保护措施，可以让用户对通用大模型产生信任感和安全感，从而提高用户的获得感。提高模型的准确性和效果 04 通用大模型应该具备高准确性和效果，能够为用户提供精准的预测和决策支持。通过不断优化算法和模型，提高模型的性能和效果，可以让用户更信任和依赖通用大模型，从而提高用户的获得感。建议坚持走可持续发展道路，推动通用大模型“健康发展、安全使用”，激活各类市场参与主体的积极性，打造统一开放、多元化多层次、合规高效的生成式人工智能技术与应用的生态环境。厘清法律和规范加强监管和审计加强合作和交流强化保障和措施采取多种安全保障措施，包括数据加密、访问控制、安全审计、防火墙等，提高大模型的安全性和可靠性。同时，加强漏洞管理和修复，及时更新和升级大模型，确保其安全性。建立监管和审计机制，对大模型的研发和应用过程进行监督和管理。定期对大模型进行安全审查和合规性评估，及时发现和解决潜在的安全风险和问题。制定相关法规和规范，明确大模型的

点击免费查看完整报告

中国通用大模型内容生成及安全性能力评测

你可能感兴趣

大模型赋能智慧办公评测报告-PPT生成

“弈衡”通用大模型评测体系白皮书

《通用大模型评测标准》公布，月之暗面发布Kimi探索版

【掘金行业龙头】多模态+AIGC，多模态大模型进入实验性训练阶段，AIGC产品覆盖图像、音乐、文本、编程等多模态内容生成能力，这家公司已发布多个AI助手

2023年中国AI大模型行研能力评测报告

中国大模型行研能力年中评测二AI助力渗透千行百业20241010

中国移动“弈衡”大模型评测体系研究及技术发展趋势洞察

资讯汇总12期：【上海产经观察】中国大模型评测竞技场Compass Arena正式启动

【九点特供】苹果正在中国寻找本土生成式AI提供方，机构称国产大模型将迎来流量、商业变现双拐点，这家公司的大模型可实现一键生成万字，一次读懂100万字小说

【财联社早知道】全球首个影视行业大模型！PixVerse C1正式发布，机构称AI视频及图像生成技术规模化商用落地进程显著提速，这家公司基于自己的大模型打造了一站式AI视频创作工作台-20260409