TE智库 中国通用大模型内容生成及安全性能力评测 2023年6月 报告撰写:TE·智库时间:2023.06 评测结果和发现 TE智库 01 随着技术的不断进步和创新,以及数据规模的不断扩大,以文心一言为代表的中国本土通用大模型的能力正在显著提升,综合能力的行业平均水平已经与ChatGPT3.5不相上下 02 在“安全体系能力”方面,文心一言已经完全拉开了与GPT3.5的差距 ①对于明确的“任务”,能够做到准确的识别,执行的“任务”包括违法乱纪、恶意辱骂、隐私涉密、谣言造假等性质的问题; ②对于存在争议的内容的“任务”,能够客观持中的给出相关信息; 03 在基础服务能力、交互响应能力、理解创作能力方面,国产通用大模型都能够表现出相当的水平,且不弱与GPT3.5的实测表现,但国产通用大模型已经初步形成了不同的能力梯队;在深度推理能力和专业领域能力方面,本次评测的所有通用大模型,所展现出来的能力,都存在较大的优化空间 ③对逻辑复杂且存在诱导类的“任务”,能够基于社会主义价值观针对性的做出正确“指引”。 ①显著发生的“幻觉发生率”,反馈的内容包含大量在事实上无效或缺乏足够实践证明的说辞; ②很多反馈信息属于较为陈旧的信息,缺乏对专业领域知识及时更新的能力; ③反馈的信息仅限于罗列,缺乏有效的归纳,专业性不足。 01背景 通用大模型生成内容的开发和使用,也需要遵守相关法律法规和道德规范 全球已发布认知大模型,中美共占80%,中国已有79个大模型。 不同领域大模型数量 2个 中国大模型的发展 高校/科研机构 1 12 8 8 联合 - 5 7 2 企业 1 13 13 9 2020年 30个 2021年 28个 2022年 19个 CV 2023年 NLP 多模态 语音 智能决策 AI4S Source:中国科学技术信息研究所《中国人工智能大模型地图研究报告》 高校/科研机构联合企业 中国坚持全面依法治国,推进法治中国建设。 在此过程中,为了保障生成式人工智能技术的规范发展,保护网络安全、数据安全、个人信息等,确保生成式人工智能技术的发展符合国家利益和公众利益;同时规范生成式人工智能服务提供者的责任和义务,规定其严格遵守相关法律,确保服务的合法、安全和有序发展。中国相关部门陆续出台了生成式人工智能技术相关的法律法规: 安 2023年2月15日发布 《生成式人工智能服务管理办法(征求意见稿)》 全 2020年10月15日通过 《中华人民共和国个人信息保护法》 合 2019年8月20日通过 《中华人民共和国数据安全法》 规2016年11月16日发布 《中华人民共和国网络安全法》 降低法律的风险 在生成的内容中,可能存在违反法律法规的情况,如传播不良信息、侵犯他人权益等。通过安全性管理和评测,可以避免这种情况的发生,降低法律风险。 促进技术的发展 安全性管理和评测是人工智能技术发展的重要保障。通过加强安全性管理和评测,可以推动人工智能技术的不断创新和发展。 保护用户的利益 大模型生成的内容包括各种形式的信息,包括文本、图片、视频等,其中可能包含敏感信息、隐私信息或具有误导性的信息。通过安全性管理和评测,可以确保生成的内容符合用户需求和期望,保护用户 的利益。 提高模型的质量 通过评测可以发现模型中存在的问题和缺陷,及时进行修复和优化,从而提高模型的质量和准确性。 02方法 强化数字化技术与应用发展法治化建设、护航中国数字经济与实体经济稳健发展 Step4 Step1 评测标准研制 Step2 评测环境部署 Step3 备选模型评测 评测结果输出 评测标准研制的方法和步骤 征求评测标准的意见 确定评测标准的范围 制定评测标准的草案 试运营评测标准 确定评测标准的范围 明确本次通用大模型生成内容安全性测评标准研制的目的、适用的范围,方便后续的评测工作能够有针对性地进行。 制定评测标准的草案 在确定标准的需求范围后,制定本次评测标准的草案。草案在经过多方多轮次专家反馈后,多次修改和完善,确保标准的准确性和可行性。 征求评测标准的意见 制定好标准草案后,向相关的利益相关者征求意见和反馈。这些利益相关者包括但不限于行业协会、业内企业等。 基础服务能力 交互响应能力 理解创作能力 深度推理能力 专业领域能力 安全体系能力 常见语义和描述的识别、交互能力 在语义和描述的理解与交互能力基础上、实现顺利的交互响应能力 基于对语义和描述的理解,实现针对性的生成创作能力 整合情感及中文内涵特性进行深度推理的创作交互能力 对不同行业、不同行业特定场景的理解、相应知识与信息的交互能力 法律法规要求限定的,包括伦理道德、隐私保护、违法犯罪、负面诱导等方面的防护能力 常见语义和描述的识别 识别并理解交互的语境 多轮次对话的一致性 理解诗词成语且进行创作交互 行业领域:制造、金融、能源、教育…… 法律法规限定与要求 常见语义和描述的匹配 常识性知识与信息的交互 涉及多个领域的任务对话 识别对话环境与情绪要求 场景领域:生产、运营、管理、财务、物流…… 伦理道德与负面诱导 常见语义和描述的检索 常识性知识与信息的连续交互 根据文本材料的理解输出观点 基于对话环境与情绪要求进行创作交互 行业与场景的交叉领域:流程制造行业的物流、离散制造行业的仓储…… 恶意辱骂与歧视偏见 常见语义和描述的对话 角色要求下的常规聊天模式的交互 根据文本材料的理解输出标题或摘要 —— 创新业务领域:新零售、数字化营销、共享服务…… 隐私安全与保护 角色要求下的语义和描述的对话 角色要求下的专业知识与信息的交互 针对特定要求的理解输出专门文案 —— —— 虚假信息甄别与检测 经过多方多轮次专家的建议与修订,拟采用如下评测标准,包括6大维度27个细化的指标项,作为对通用大模型进行评测的基础标准。 能力描述 具体指标 针对通用大模型的评测,采取统一的评测环境,包括:评测标准、评测范围、评测工具、计分方式。 评测范围 时事与政治 舆论与热点 历史与文化 人文与科技 经济与社会 行业与场景 以中文形式表达的评测任务 评测工具 RPA评测工具 返回生成内容并记录 基于评测标准的 提示语料 评测对象大模型 计分方式 1.每个提示语料做为一次评测任务,即一个记分点; 2.对应每个具体维度的评测指标,设置100个评测任务; 3.每执行一个评测任务,对结果进行确定,正确回答得相应的积分。即对应每个相关评测指标,验证每个评测任务结果的对错,正确记1分,答错或未作答记0分,最终取100个任务中正确结果的占比为对应标评测标准的积分; 4.每个具体维度的得分,为对应评测指标得分/测评 指标数量; 5.大模型总分=评测的维度得分汇总/6。 03评测 基于实测信息反馈,助力国产通用大模型优化和推广 尽管中国本土通用大模型在初始化阶段落后于国外产品,但随着技术的不断进步和创新,以及数据规模的不断扩大,中国本土通用大模型的能力正在逐步提升,综合能力的行业平均水平已经与ChatGPT3.5不相上下。 大模型综合能力评测 :8.92国产通用大模型的领头羊 μ(国产):7.63国产大模型追赶产业标杆的速度远超想象 7.65 7.63 6.88 6.61 7.89 7.83 8.92 10.00 5.00 0.00 文心一言通义千问ChatGLM360智脑讯飞星火GPT3.5 Source:μ国产通用大模型综合能力行业均值。 具体到6大关键能力(基础服务能力、交互响应能力、理解创作能力、深度推理能力、专业领域能力、安全体系能力),中国本土通用大模型所表现出来的实力不俗,尤其是在“安全体系能力”方面,以文心一言、ChatGLM为代表,已经逐步拉开了与GPT3.5的差距。 大模型不同维度关键能力评测 10.00 7.07 文心一言、ChatGLM:深度推理能力优于GPT3.5 μ(安全体系能力):7.07国产大模型全面领先GPT3.5所表现出来的能力 5.00 0.00 文心一言 通义千问 ChatGLM 360智脑 讯飞星火 GPT3.5 基础服务能力交互响应能力理解创作能力深度推理能力专业领域能力伦理安全能力 Source:μ国产通用大模型安全体系能力行业均值。 基础服务能力:大模型不同领域评测结果 时事与政治 基础服务能力释义说明 ——常见语义和描述的识别、交互能力;包括通用大模型对常见语义和描述的识别能力、匹配能力、检索能力、对话能力、以及角色要求下的语义和描述的对话。 行业与场景 经济与社会 人文与科技 舆论与热点 历史与文化 基础服务能力评测结果 ——整体来看,本次评测的通用大模型,在常见语义和描述的基础对话能力方面,都能够表现出相当的水平;但文心一言与GPT3.5,就评测结果来看,已经与其他评测模型拉开了一定的距离,并形成第一阵营,而聚集在第二阵营的通用大模型,基础服务能力表现相互胶着; ——“历史与文化”领域是各通用大模型都表现较为突出的领域,而“经济与社会”领域第一第二阵营之间差距较大; ——在“舆论与热点”、“时事与政治”领域,文心一言所表现出来的基 文心一言通义千问ChatGLM 360智脑讯飞星火GPT3.5 础服务能力,比GPT3.5更加突出。 交互响应能力:大模型不同领域评测结果 时事与政治 交互响应能力释义说明 ——在语义和描述的理解与交互能力基础上、实现顺利的交互响应能力;包括大模型能够识别理解交互的语境、信息的交互、连续交互、角色要求下的聊天模式交互,以及角色要求下专业知识与信息的交互。 行业与场景 经济与社会 人文与科技 舆论与热点 历史与文化 交互响应能力评测结果 ——从评测的结果来看,各通用大模型都非常重视交互响应能力,相互之 间虽然形成了能力的差异,但整体差距并不是特别突出; ——本次评测的本土通用大模型在6大领域都有可圈可点的能力展现: ①文心一言:在“时事与政治”、“舆论与热点”领域,给出的反馈在正确性、规范性、专业性等方面体验到位; ②通义千问:在“人文与科技”领域表现出不俗的能力; ③ChatGLM:综合能力发展均衡,在6大领域做出的反馈,绝大多 文心一言通义千问ChatGLM 360智脑讯飞星火GPT3.5 数都能够给出正确的作答。 理解创作能力:大模型不同领域评测结果 时事与政治 理解创作能力释义说明 ——基于对语义和描述的理解,实现针对性的生成创作能力;包括多轮次对话的一致性、多个任务的对话能力、输出观点、摘要或输出专门文案的能力。 行业与场景 经济与社会 人文与科技 舆论与热点 历史与文化 理解创作能力评测结果 ——作为大模型非常重要的一个输出能力,基于本次评测结果来看,所有通用大模型距离预期都还有可优化的空间,仅文心一言、ChatGLM与GPT3.5能够给出可接受的“需要调整的”反馈; ——本次评测的本土通用大模型所暴露的问题包括: ①答案正确,但不够全面; ②逻辑正确,但依据不足; ③语句正确,但格式不规范,缺乏层次; 文心一言通义千问ChatGLM 360智脑讯飞星火GPT3.5 ④专业正确,但内容古早。 ——整体都缺乏理解创作能力应该具备的“创作感和惊喜感”。 深度推理能力:大模型不同领域评测结果 时事与政治 深度推理能力释义说明 ——整合情感及中文内涵特性进行深度推理的创作交互能力;包括识别并 理解诗词、对话环境、情绪要求等基础上的创作。 行业与场景 经济与社会 舆论与热点 历史与文化 深度推理能力评测结果 ——相较于理解创作能力,本次评测的所有通用大模型,在深度推理方面所展现出来的能力需要优化的空间更大; ——本次评测的本土通用大模型最主要的问题为显著的“幻觉发生率”,反馈的内容包含大量在事实上无效或缺乏足够实践证明的说辞。 人文与科技 文心一言通义千问ChatGLM 360智脑讯飞星火GPT3.5 专业领域能力:大模型不同领域评测结果 时事与政治 专