您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[清华大学]:大模型安全实践(2024)白皮书 - 发现报告

大模型安全实践(2024)白皮书

信息技术2024-07-05-清华大学七***
AI智能总结
查看更多
大模型安全实践(2024)白皮书

图表目录 图2-1总体框架图................................................................................................................................................. 10图2-2云边端安全架构图.................................................................................................................................... 18图2-3端侧安全....................................................................................................................................................... 19图3-1大模型的隐私泄露风险示意图............................................................................................................. 21图3-2模型后门攻击的不同触发器示意图.................................................................................................... 22图3-3针对CHATGPT进行指令攻击效果图.................................................................................................. 23图3-4基于大规模复杂分布式计算机系统建立的系统框架.................................................................... 24图3-5生成式人工智能的系统安全威胁........................................................................................................ 25图3-6生成式AI学习框架面临的安全问题示意图.................................................................................... 27图3-7大模型生成NFT艺术作品..................................................................................................................... 30图3-8大模型产生性别偏见性言论.................................................................................................................. 31图3-9联邦学习在大模型训练与微调中的应用........................................................................................... 32图3-10模型越狱防御技术的方法示意图...................................................................................................... 34图3-11提示语泄漏防御技术的方法示意图................................................................................................. 34图3-12系统防御技术示意图............................................................................................................................. 35图3-13基于人类反馈的强化学习方法示意图.............................................................................................. 40图3-14虚假新闻检测模型GROVER示意图.................................................................................................... 41图3-15训练数据添加水印流程图.................................................................................................................... 42图3-16深度伪造主动防御技术流程图........................................................................................................... 43图3-17模型幻觉防御技术................................................................................................................................. 45图3-18数字水印的应用流程............................................................................................................................. 49图3-19图片AIGC模型类型.............................................................................................................................. 50图3-20大模型安全性评测链路........................................................................................................................ 53图4-1金融领域大模型安全实践案例............................................................................................................. 55 4.1金融领域大模型安全实践....................................................................................................................... 544.2医疗领域大模型安全实践....................................................................................................................... 584.3政务领域大模型安全实践....................................................................................................................... 614.4人力资源领域大模型安全实践.............................................................................................................. 654.5智能助理领域大模型安全实践.............................................................................................................. 69 五、大模型安全未来展望与治理建议.................................................................................................... 71 5.1未来展望....................................................................................................................................................... 71 引言 图4-2医疗领域大模型安全实践案例............................................................................................................. 58图4-3医疗领域大模型安全技术实现............................................................................................................. 59图4-4政务领域大模型安全防御技术实现.................................................................................................... 62图4-5人力资源领域大模型安全实践案例.................................................................................................... 65图4-6智能助理领域大模型安全实践案例.................................................................................................... 69图5-1大模型安全“五维一体”治理框架.......................................................................................................... 76表2-1“以人为本”人工智能相关政策或报告................................................................................................. 12表3-1AIGC图片的攻击类型..