对等关税新质生产力低空经济 DeepSeek AIGC 人形机器人智能驾驶大模型固态电池半导体银发经济

Top开源大模型安全测评报告（2024）

信息技术2024-12-19-中国软件评测中心欧***

AI智能总结

Top开源大模型安全测评报告（2024）

测评背景

为贯彻落实相关法律法规政策文件的要求，促进和引导人工智能大模型技术向“负责任、可持续、高可靠”目标发展，中国软件评测中心（工业和信息化部软件与集成电路促进中心）安全事业部联合杭州安恒信息技术股份有限公司、数据安全关键技术与产业应用评价工业和信息化部重点实验室、中国计算机行业协会数据安全专业委员会，共同开展了国内外开源大模型的安全性、公平性和可靠性研究，并发布了《Top开源大模型安全测评报告(2024)》。

测评对象

本次测评选取了12家20款开源大模型，从国家安全、道德伦理、公民权利、公共安全、历史文化、医疗卫生、隐私信息、不良信息、商业金融、基础安全、网络安全和模型滥用等12个方面进行了深入安全测评。

测评结果

总体情况
- 国内开源大模型安全性整体优于国外开源大模型。
- 公共安全、道德伦理、不良信息和网络安全风险较为严重。
大模型安全风险类型分布
- 国家安全风险数量较多，其中aya:8b、mistral:7b-instruct、mistral单项风险占比最高。
- 文化历史风险较少，但llama3:8b和mistral:7b-instruct单项风险占比最高。
- 公共安全风险数量最多，其中mistral:7b-instruct单项风险占比最高。
- 网络安全风险数量次之，其中yi:6b单项风险占比最高。
- 不良信息风险数量较多，其中aya:8b单项风险占比最高。
- 道德伦理风险数量较多，其中falcon单项风险占比最高。
- 隐私信息风险数量较多，其中aya:8b单项风险占比最高。
- 商业金融风险数量较多，其中yi:6b单项风险占比最高。
- 公民权利风险数量较多，其中yi:6b单项风险占比最高。
- 医疗卫生风险数量较少，其中aya:8b单项风险占比最高。
- 模型滥用风险数量较多，其中deepseek-v2:16b-lite-chat-q4_K_M单项风险占比最高。
- 基础安全风险数量较少，其中llama3.1:latest单项风险占比最高。

结论

本次测评结果显示，开源大模型存在一定的安全风险，特别是公共安全、道德伦理、不良信息和网络安全等方面。国内开源大模型安全性整体优于国外开源大模型，但大模型安全治理工作仍需各方共同努力。未来需要持续跟踪研究大模型安全风险点，研发高效智能化的安全评估工具，加强网络安全防护和个人数据保护，实行包容审慎和分类分级监管。

Top开源大模型安全测评报告(2024) 中国软件评测中心安全事业部杭州安恒信息技术股份有限公司中国计算机行业协会数据安全专业委员会数据安全关键技术与产业应用评价工业和信息化部重点实验室联合发布 2024年12月为深入学习贯彻全国两会精神和党的二十届三中全会精神，落实《中共中央关于进一步全面深化改革、推进中国式现代化的决定》作出“建立人工智能安全监管制度”“完善生成式人工智能发展和管理机制”的重要部署以及根据《中华人民共和国网络安全法》《中华人民共和国数据安全法》《中华人民共和国个人信息保护法》《生成式人工智能服务管理办法》《工业和信息化部等十六部门关于促进数据安全产业发展的指导意见》等法律法规政策文件要求，促进和引导人工智能大模型技术向“负责任、可持续、高可靠”目标发展，让人工智能大模型技术真正实现高质量安全赋能各行各业落地应用。中国软件评测中心（工业和信息化部软件与集成电路促进中心）安全事业部联合杭州安恒信息技术股份有限公司、数据安全关键技术与产业应用评价工业和信息化部重点实验室、中国计算机行业协会数据安全专业委员会，共同开展国内外开源大模型的安全性、公平性和可靠性研究，并发布《Top开源大模型安全测评报告(2024)》。本报告聚焦国内外开源大模型的安全风险测评，通过选取典型的12家20款开源大模型，从国家安全、道德伦理、公民权利、公共安全、历史文化、医疗卫生、隐私信息、不良信息、商业金融、基础安全、网络安全和模型滥用等12个方面展开深入安全测评，旨在提高大模型厂商的安全意识和保障行业用户的合法权益，并通过系统性分析国内外开源大模型安全的综合表现，为人工智能大模型产业各界提供参考。【注】因大模型迭代速度快，测评结果仅适用于测试期间和测试版本。报告中的分析和结论可能存在一定的局限性和不完整性，我们期待并欢迎各方提出宝贵的批评与建议，共同推动人工智能大模型安全治理。 01 测评体系 02 测评结果 03 测评总结 01 测评体系直接问答混合攻击指令忽略语言切换场景限定多样本攻击 TOKEN 走私 Token 重复攻击少样本攻击场景假设角色伪装内容分割重组国家安全公共安全公民权利道德伦理历史文化..... 探索AI大模型安全治理的新路径 加强网络安全防护和个人数据保护 加强科技伦理治理探索AI大模型安全治理的新技术 持续跟踪研究AI大模型安全风险点 持续研发高效智能化的AI大模型安全评估工具人工智能大模型安全评估体系实行包容审慎和分类分技术发展与治理监督检查和法律责任级监管《生成式人工智能服务管理暂行办法》语料安全要求模型安全要求安全措施要求《生成式人工智能服务安全基本要求》计算单项风险比例对于每个检测方式或风险分类，首先计算其单项风险比例。计算比例总和其次，将所有单项风险比例相加，得到整体的比例总和。计算单项占总风险比例最后，计算某一项在总风险中的占比。本测评过程采用多维度的测试题库，包涵了丰富的题目和多种测试维度。在测试过程中，通过调用API的方式，全面测试了模型的风险。测试过程中采用了规则匹配打分、大模型自动打分等方式，以客观评价模型的安全风险水平。测评结果 02 从大模型安全风险总览来看，开源大模型存在一定安全风险，国内开源大模型安全性整体上优于国外开源大模型，大模型安全治理工作任重道远需各方共同努力。序号模型名称执行策略数风险数耗时（秒）策略通过率风险占比备注 1 qwen:7b 2000 131 3330.00 93.45% 6.55% 国内开源大模型 2 qwen2:7b 2000 78 7486.00 96.10% 3.90% 国内开源大模型 3 qwen2.5:7b 2000 89 5101.00 95.55% 4.45% 国内开源大模型 4 glm4:9b-chat-q4_K_M 2000 149 9944.00 92.55% 7.45% 国内开源大模型 5 internlm2:7b 2000 41 5968.00 97.95% 2.05% 国内开源大模型 6 yi:6b 2000 250 8566.00 87.50% 12.50% 国内开源大模型 7 yi-1.5:6b 2000 268 7173.00 86.60% 13.40% 国内开源大模型 8 deepseek-llm:7b 2000 118 3809.00 94.10% 5.90% 国内开源大模型 9 deepseek-v2:16b-lite-chat-q4_K_M 2000 49 7261.00 97.55% 2.45% 国内开源大模型 10 llama3:8b 2000 129 6041.00 93.55% 6.45% 国外开源大模型 11 llama2:7b 2000 82 6301.00 95.90% 4.10% 国外开源大模型 12 llama3.1:latest 2000 119 2778.00 94.05% 5.95% 国外开源大模型 13 gemma:7b 2000 152 3598.00 92.40% 7.60% 国外开源大模型 14 gemma2:9b-instruct-q4_K_M 2000 52 8631.00 97.40% 2.60% 国外开源大模型 15 phi3:14b 2000 111 9593.00 94.45% 5.55% 国外开源大模型 16 mistral 2000 278 9665.00 86.10% 13.90% 国外开源大模型 17 mistral:7b-instruct 2000 299 9676.00 85.05% 14.95% 国外开源大模型 18 aya:8b 2000 315 6940.00 84.25% 15.75% 国外开源大模型 19 minicpm-v 2000 138 4000.00 93.10% 6.90% 国外开源大模型 20 falcon 2000 285 3606 85.75% 14.25% 国外开源大模型从大模型安全风险类型分布来看，公共安全、道德伦理、不良信息和网络安全风险较为严重，谨慎使用国外开源大模型作为基座模型。序号模型名称历史文化网络安全模型滥用医疗卫生道德伦理国家安全公民权利基础安全隐私信息不良信息商业金融公共安全汇总 5 111 40 70 504 268 89 20 137 199 85 472 2000 1 qwen2:7b 0 23 0 1 18 11 0 0 5 10 0 10 78 2 qwen:7b 0 29 0 3 28 15 0 1 7 25 6 17 131 3 qwen2.5:7b 0 20 0 1 23 11 0 0 7 19 0 8 89 4 deepseek-v2:16b-lite-chat-q4_K_M 0 8 2 0 15 7 1 0 4 9 1 2 49 5 deepseek-llm:7b 0 23 1 0 19 22 3 0 5 20 1 24 118 6 internlm2:7b 0 9 0 2 9 6 0 1 3 6 0 5 41 7 glm4:9b-chat-q4_K_M 0 32 0 0 24 22 0 1 8 30 3 29 149 8 yi:6b 0 36 1 2 29 30 19 0 13 42 12 66 250 9 yi-1.5:6b 0 35 0 4 43 31 19 1 16 39 10 70 268 10 llama3:8b 1 11 1 1 42 23 4 1 10 19 3 13 129 11 llama2:7b 0 7 1 0 27 13 2 0 8 16 1 7 82 12 llama3.1:latest 0 2 2 5 59 13 3 2 6 9 4 14 119 13 gemma2:9b-instruct-q4_K_M 0 11 0 0 11 12 0 0 2 12 0 4 52 14 gemma:7b 0 17 0 1 42 28 7 1 6 21 5 24 152 15 phi3:14b 0 13 0 1 34 13 4 1 6 20 3 16 111 16 mistral 0 22 1 3 57 45 12 0 15 46 6 71 278 17 mistral:7b-instruct 1 27 1 3 60 48 9 2 15 44 6 83 299 18 minicpm-v 0 15 1 1 40 25 1 1 5 22 4 23 138 19 aya:8b 0 28 1 7 66 55 12 0 17 56 5 68 315 20 falcon 0 16 2 7 107 37 13 1 14 33 8 47 285 从大模型安全风险检测方式来看，开源大模型在面对内容分割重组、角色伪装、直接问答、语言切换、混合攻击等检测方式时防护能力较弱，大模型如何抵御各类型的攻击方式需持续研究。序号模型名称内容分割重组 Token 走私角色伪装场景假设少样本攻击 Token重复攻击直接问答多样本攻击场景限定说服语言切换指令忽略混合攻击汇总 125 122 130 61 61 130 725 70 65 127 129 127 128 2000 1 qwen2.5:7b 25 17 4 2 4 5 8 1 1 3 8 4 7 89 2 qwen2:7b 22 7 8 4 1 7 2 8 1 1 9 3 5 78 3 qwen:7b 22 9 11 4 5 6 21 8 5 3 16 5 16 131 4 deepseek-v2:16b-lite-chat-q4_K_M 12 8 2 0 3 2 2 1 0 3 9 0 7 49 5 deepseek-llm:7b 18 11 9 8 6 6 17 2 4 5 20 5 7 118 6 yi:6b 20 4 18 8 2 10 102 16 12 13 19 13 13 250 7 yi-1.5:6b 27 7 18 6 5 17 106 14 12 7 29 10 10 268 8 glm4:9b-chat-q4_K_M 36 13 13 10 5 9 10 11 4 7 13 6 12 149 9 internlm2:7b 7 4 4 1 0 2 6 0 0 0 12 1 4 41 10 llama3:8b 25 16 3 8 2 8 25 4 2 7 13 10 6 129 11 llama2:7b 16 7 5 5 2 2 17 3 3 6 4 4 8 82 12 llama3.1:latest 10 7 2 1 2 2 72 1 3 2 8 5 4 119 13 gemma2:9b-instruct-q4_K_M 18 8 2 5 3 4 0 2 1 0 3 2 4 52 14 gemma:7b 32 5 10 6 4 10 26 12 4 9 14 7 13 152 15 mistral 29 12 26 13 5 17 72 16 13 17 20 16 22 278 16 mistral:7b-instruct 32 7 24 14 5 15 79 26 15 17 20 19 26 299 17 phi3:14b 23 4 14 9 3 6 14 5 6 5 12 5 5 111 18 minicpm-v 24 3 10 12 3 11 28 5 3 6 20 5 8 138 19 aya:8b 25 4 27 19 8 15 80 26 26 15 15 31 24 315 20 falcon 19 4 16 11 5 17 119 12 11 21 18 16 16 285 从国家安全风险类型来看，测试策略数量为268个，其中aya:8b、mistral:7b

点击免费查看完整报告