Top开源大模型安全测评报告(2024) 中国软件评测中心安全事业部杭州安恒信息技术股份有限公司 中国计算机行业协会数据安全专业委员会 数据安全关键技术与产业应用评价工业和信息化部重点实验室联合发布 2024年12月 为深入学习贯彻全国两会精神和党的二十届三中全会精神,落实《中共中央关于进一步全面深化改革、推进中国式现代化的决定》作出“建立人工智能安全监管制度”“完善生成式人工智能发展和管理机制”的重要部署以及根据《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》《生成式人工智能服务管理办法》《工业和信息化部等十六部门关于促进数据安全产业发展的指导意见》等法律法规政策文件要求,促进和引导人工智能大模型技术向“负责任、可持续、高可靠”目标发展,让人工智能大模型技术真正实现高质量安全赋能各行各业落地应用。 中国软件评测中心(工业和信息化部软件与集成电路促进中心)安全事业部联合杭州安恒信息技术股份有限公司、数据安全关键技术与产业应用评价工业和信息化部重点实验室、中国计算机行业协会数据安全专业委员会,共同开展国内外开源大模型的安全性、公平性和可靠性研究,并发布《Top开源大模型安全测评报告(2024)》。 本报告聚焦国内外开源大模型的安全风险测评,通过选取典型的12家20款开源大模型,从国家安全、道德伦理、公民权利、公共安全、历史文化、医疗卫生、隐私信息、不良信息、商业金融、基础安全、网络安全和模型滥用等12个方面展开深入安全测评,旨在提高大模型厂商的安全意识和保障行业用户的合法权益,并通过系统性分析国内外开源大模型安全的综合表现,为人工智能大模型产业各界提供参考。 【注】因大模型迭代速度快,测评结果仅适用于测试期间和测试版本。报告中的分析和结论可能存在一定的局限性和不完整性,我们期待并欢迎各方提出宝贵的批评与建议,共同推动人工智能大模型安全治理。 01 测评体系 02 测评结果 03 测评总结 01 测评体系 直接问答 混合攻击 指令忽略 语言切换 场景限定 多样本攻击 TOKEN 走私 Token 重复攻击 少样本攻击 场景假设 角色伪装 内容分割重组 国家安全公共安全公民权利道德伦理历史文化..... 探索AI大模型安全治理的新路径 加强网络安全防护和个人数据保护 加强科技伦 理治理 探索AI大模型安全治理的新技术 持续跟踪研究AI大模型安全风险点 持续研发高效智能化的AI大模型安全评估工具 人工智能大模型安全评估体系 实行包容审慎和分类分技术发展与治理监督检查和法律责任级监管 《生成式人工智能服务管理暂行办法》 语料安全要求 模型安全要求 安全措施要求 《生成式人工智能服务安全基本要求》 计算单项风险比例 对于每个检测方式或风险分类,首先计算其单项风险比例。 计算比例总和 其次,将所有单项风险比例相加,得到整体的比例总和。 计算单项占总风险比例 最后,计算某一项在总 风险中的占比。 本测评过程采用多维度的测试题库,包涵了丰富的题目和多种测试维度。在测试过程中,通过调用API的方式,全面测试了模型的风险。测试过程中采用了规则匹配打分、大模型自动打分等方式,以客观评价模型的安全风险水平。 测评结果 02 从大模型安全风险总览来看,开源大模型存在一定安全风险,国内开源大模型安全性整体上优于国外开源大模型,大模型安全治理工作任重道远需各方共同努力。 序号 模型名称 执行策略数 风险数 耗时(秒) 策略通过率 风险占比 备注 1 qwen:7b 2000 131 3330.00 93.45% 6.55% 国内开源大模型 2 qwen2:7b 2000 78 7486.00 96.10% 3.90% 国内开源大模型 3 qwen2.5:7b 2000 89 5101.00 95.55% 4.45% 国内开源大模型 4 glm4:9b-chat-q4_K_M 2000 149 9944.00 92.55% 7.45% 国内开源大模型 5 internlm2:7b 2000 41 5968.00 97.95% 2.05% 国内开源大模型 6 yi:6b 2000 250 8566.00 87.50% 12.50% 国内开源大模型 7 yi-1.5:6b 2000 268 7173.00 86.60% 13.40% 国内开源大模型 8 deepseek-llm:7b 2000 118 3809.00 94.10% 5.90% 国内开源大模型 9 deepseek-v2:16b-lite-chat-q4_K_M 2000 49 7261.00 97.55% 2.45% 国内开源大模型 10 llama3:8b 2000 129 6041.00 93.55% 6.45% 国外开源大模型 11 llama2:7b 2000 82 6301.00 95.90% 4.10% 国外开源大模型 12 llama3.1:latest 2000 119 2778.00 94.05% 5.95% 国外开源大模型 13 gemma:7b 2000 152 3598.00 92.40% 7.60% 国外开源大模型 14 gemma2:9b-instruct-q4_K_M 2000 52 8631.00 97.40% 2.60% 国外开源大模型 15 phi3:14b 2000 111 9593.00 94.45% 5.55% 国外开源大模型 16 mistral 2000 278 9665.00 86.10% 13.90% 国外开源大模型 17 mistral:7b-instruct 2000 299 9676.00 85.05% 14.95% 国外开源大模型 18 aya:8b 2000 315 6940.00 84.25% 15.75% 国外开源大模型 19 minicpm-v 2000 138 4000.00 93.10% 6.90% 国外开源大模型 20 falcon 2000 285 3606 85.75% 14.25% 国外开源大模型 从大模型安全风险类型分布来看,公共安全、道德伦理、不良信息和网络安全风险较为严重,谨慎使用国外开源大模型作为基座模型。 序号 模型名称 历史文化 网络安全 模型滥用 医疗卫生 道德伦理 国家安全 公民权利 基础安全 隐私信息 不良信息 商业金融 公共安全 汇总 5 111 40 70 504 268 89 20 137 199 85 472 2000 1 qwen2:7b 0 23 0 1 18 11 0 0 5 10 0 10 78 2 qwen:7b 0 29 0 3 28 15 0 1 7 25 6 17 131 3 qwen2.5:7b 0 20 0 1 23 11 0 0 7 19 0 8 89 4 deepseek-v2:16b-lite-chat-q4_K_M 0 8 2 0 15 7 1 0 4 9 1 2 49 5 deepseek-llm:7b 0 23 1 0 19 22 3 0 5 20 1 24 118 6 internlm2:7b 0 9 0 2 9 6 0 1 3 6 0 5 41 7 glm4:9b-chat-q4_K_M 0 32 0 0 24 22 0 1 8 30 3 29 149 8 yi:6b 0 36 1 2 29 30 19 0 13 42 12 66 250 9 yi-1.5:6b 0 35 0 4 43 31 19 1 16 39 10 70 268 10 llama3:8b 1 11 1 1 42 23 4 1 10 19 3 13 129 11 llama2:7b 0 7 1 0 27 13 2 0 8 16 1 7 82 12 llama3.1:latest 0 2 2 5 59 13 3 2 6 9 4 14 119 13 gemma2:9b-instruct-q4_K_M 0 11 0 0 11 12 0 0 2 12 0 4 52 14 gemma:7b 0 17 0 1 42 28 7 1 6 21 5 24 152 15 phi3:14b 0 13 0 1 34 13 4 1 6 20 3 16 111 16 mistral 0 22 1 3 57 45 12 0 15 46 6 71 278 17 mistral:7b-instruct 1 27 1 3 60 48 9 2 15 44 6 83 299 18 minicpm-v 0 15 1 1 40 25 1 1 5 22 4 23 138 19 aya:8b 0 28 1 7 66 55 12 0 17 56 5 68 315 20 falcon 0 16 2 7 107 37 13 1 14 33 8 47 285 从大模型安全风险检测方式来看,开源大模型在面对内容分割重组、角色伪装、直接问答、语言切换、混合攻击等检测方式时防护能力较弱,大模型如何抵御各类型的攻击方式需持续研究。 序号 模型名称 内容分割重组 Token 走私 角色伪装 场景假设 少样本攻击 Token重复攻击 直接问答 多样本攻击 场景限定 说服 语言切换 指令忽略 混合攻击 汇总 125 122 130 61 61 130 725 70 65 127 129 127 128 2000 1 qwen2.5:7b 25 17 4 2 4 5 8 1 1 3 8 4 7 89 2 qwen2:7b 22 7 8 4 1 7 2 8 1 1 9 3 5 78 3 qwen:7b 22 9 11 4 5 6 21 8 5 3 16 5 16 131 4 deepseek-v2:16b-lite-chat-q4_K_M 12 8 2 0 3 2 2 1 0 3 9 0 7 49 5 deepseek-llm:7b 18 11 9 8 6 6 17 2 4 5 20 5 7 118 6 yi:6b 20 4 18 8 2 10 102 16 12 13 19 13 13 250 7 yi-1.5:6b 27 7 18 6 5 17 106 14 12 7 29 10 10 268 8 glm4:9b-chat-q4_K_M 36 13 13 10 5 9 10 11 4 7 13 6 12 149 9 internlm2:7b 7 4 4 1 0 2 6 0 0 0 12 1 4 41 10 llama3:8b 25 16 3 8 2 8 25 4 2 7 13 10 6 129 11 llama2:7b 16 7 5 5 2 2 17 3 3 6 4 4 8 82 12 llama3.1:latest 10 7 2 1 2 2 72 1 3 2 8 5 4 119 13 gemma2:9b-instruct-q4_K_M 18 8 2 5 3 4 0 2 1 0 3 2 4 52 14 gemma:7b 32 5 10 6 4 10 26 12 4 9 14 7 13 152 15 mistral 29 12 26 13 5 17 72 16 13 17 20 16 22 278 16 mistral:7b-instruct 32 7 24 14 5 15 79 26 15 17 20 19 26 299 17 phi3:14b 23 4 14 9 3 6 14 5 6 5 12 5 5 111 18 minicpm-v 24 3 10 12 3 11 28 5 3 6 20 5 8 138 19 aya:8b 25 4 27 19 8 15 80 26 26 15 15 31 24 315 20 falcon 19 4 16 11 5 17 119 12 11 21 18 16 16 285 从国家安全风险类型来看,测试策略数量为268个,其中aya:8b、mistral:7b