应用方案 腾讯数据安全forAI大模型 TENCENTDATASECURITYFORAILARGE-SCALEMODELAPPLICATIONSOLUTION AI大模型的数据安全存在哪些威胁场景? 大模型环境 模型盗用、窃取和破坏 场景描述: 1使用方/攻击者可能通过某些手段和方式窃取模型文件,借助开源代码异地部署后使用 2内部管理人员对模型环境的误操作或恶意使用 模型服务 模型合规问题 场景描述: 数据作为大模型建立的基础,其上线和使用会受到数据安全多个法律法规约束和审查,尤其在涉及个人数据处理、消费者权益、知识产权和特定行业规定的情况下。如《数据安全法》《个人信息保护法》《通用数据保护条例(GDPR)》等,均对数据收集的合法性、数据主体的授权、数据处理的目的和透明度、数据存储和传输的安全性等有严格要求。可以预测到未来也会有更多关于大模型的数据安全政策标准出台。 商业机密或重要数据泄漏 场景描述: 1模型提供方: A:模型训练过程中,需要大量数据投喂,内部负责研发和测试人员有机会获取到大量的明文数据,该类数据可能涉及重要业务信息和用户信息,一旦泄漏或者滥用将造成无法预计的损害。 B:模型提供方通常将模型作为服务对外提供,非法使用者/攻击者可以通过各种方式的请求获取到模型给出的结果,进而提取大量敏感数据或者直接窃取模型结果数据。 2模型使用方:使用方通常需要输入数据到模型中,这类数据有可能涉及到企业重要的业务数据或商业机密,如果使用的是外部大模型,可能造成企业重要数据泄漏。即使是内部大模型,也可能存在被恶意利用的获取重要数据风险。 解决方案及产品 场景一:大模型被盗用、窃取和破坏场景二:商业机密或重要数据泄漏 解决方案:基于TVM的端上模型部署加密方案,借助TVM编译器帮助模型提供方/使用方实现高效模型推理部署,并在TVM中引入Tensor加解密层。使得模型文件在本地是处于加密状态,在推理运行的时候才是解密状态,以此保证模型文件不被轻易窃取。同时,在相关人员对模型所在环境机器进行操作、运维和升级的过程中,进行全量操作实时监控和管理,一旦发现高危操作实时阻断。 相关产品:TVM-safetensor、堡垒机 解决方案:用户可以自定义商业机密或重要数据描述,通过AI智能分析API数据传输,量化评估API数据流动与内部关键数据的关联性和相似度,从语义层面识别并判断泄漏的关键信息。对训练数据进行存储加密训练解密,并严格控制内部研发测试人员访问和使用权限,禁止离线下载行为,如必要可进行加密或脱敏处理后下载到本地环境,防止数据流出。使用方在进行数据输入前,可对数据进行分类分级,盘点当前数据资产中的关键和敏感数据,确定是否进行输入和训练,防止数据进入黑盒后造成不可控影响。 相关产品:密钥管理系统、堡垒机、数据安全治理中心 场景三:大模型数据安全合规 解决方案:在数据收集过程中,提供相应数据收集必要性和管理措施告知书,对数据进行分类分级,针对敏感个人数据、消费者隐私数据、知识产权信息等进行细粒度数据分类;在训练数据存储环节,通过加密手段保证敏感数据的安全性,并且对这类数据进行严格访问控制管理和监控审计;在模型运行过程中,模型提供方可以基于可信硬件构建可信执行环境来保障提供大模型服务的同时保护用户的隐私和数据安全隔离;在模型使用环节,对于输出的数据进行检查,对于敏感数据可以考虑直接替换敏感信息为掩码。 相关产品:机密计算平台、数据安全治理中心、密钥管理系统、云访问安全代理、堡垒机 加密模型 加密数据 云鼎机密计算MaaS方案模型使用方服务平台 模型提供方 多方信任 SPDM TEE NVLink SPDM 服务平台方:保证TEE的机密性和完整性,提供证明以确认TEE中任何数据不会以明文形式留出;模型提供方:模型加密集成PKI体系,仅使用私钥授权的数据,才可在TEE中使用模型计算; SPDM 模型使用方:获得模型提供方私钥授权,通过密钥协商得到DEK,所有数据均使用DEK加密后, GPU GPU GPU GPU 在TEE中完成推理; 安全模型 CPU机密性:基于MK-TME实现,内存被独立的DEK加密;CPU完整性:本地证明和远程证明,客户可参与;GPU机密性:独立的DEK加密,显存与内存通过SPDM加密信道通信;GPU完整性:暂时只有本地证明,远程证明在NvidiaCC规划中; 远程证明服务应用服务 CUDA 内存 GuestOS NvidiaDriver 工作负载 显存 计算引擎 SPDM 系统管理 GSP 核心优势 免改造接入AI能力结合 产品从架构层面设计尽量减少对业务应用的入侵,实现快速接入和使用,同时也减少了用户侧开发运维的工作量,整体降低使用成本。 多数据源支持 支持结构化、非结构化多类数据源,可以满足多类型模型需求,如语言模型、OCR模型等 安全合规有效 产品能力凭借优异技术获得信通院、IDC、Gartner多项专业认证,应用案例和最佳实践也获评多类优秀案例。 数据识别结合AI能力实现智能化敏感数据识别。该AI识别引擎基于腾讯内部训练和实践结果,能够覆盖复杂和未知场景,突破传统规则束缚,整体提高数据识别准确率。 云原生方便快捷 基于云原生采用SaaS、PaaS架构,针对云原生产品如云主机、云数据库、对象存储等,一键资产自动同步,接入友好便捷。