©奇安信集团股票简称:奇安信股票代码:688561第1页 概要 政务大模型是专注在政务领域的行业大模型,政务大模型在通用大模型基础上,通过检索增强生成或者模型微调等技术手段,使模型更加贴合政务的特点和需求。基于政务大模型的应用,为政府决策、公共服务、带来了全新的变革。然而,政务大模型应用也伴随着各种潜在的风险。 政务大模型安全风险主要包括七个主要类型,即数据安全风险、训练语料安全风险、模型安全风险、应用安全风险、软件供应链安全风险、生成内容风险、大模型自身风险。 政务大模型的安全治理框架是保障其安全、合规运行的基础。全面的安全治理框架,需要满足合规要求、建立完善安全机制、提供安全技术保障。 其中,合规是首要原则,涉及多项法律法规、规章制度的遵循。安全技术保障是政务大模型安全治理框架的核心,涵盖从基础安全措施、数据安全、大模型开发安全到运行安全等方面。 政务大模型的安全治理上,需要政府、企业、研究机构、监管机构等各方协作,形成良性互动生态体系,构建安全、可靠、有序的环境,充分发挥政务大模型在提升政府服务效能、推动社会进步方面的积极作用。 1生成式人工智能快速发展,政务大模型为数字政府赋能 人工智能已成为引领科技革命和产业变革的战略性新兴产业,以大模型为代表的生成式人工智能,是人工智能技术发展的重要方向。基于大模型的生成式人工智能,从文本处理到声音、图像、视频等多媒体处理,从理解知识到创造知识,正在向着通用人工智能(AGI)的长期目标向前跨越。 大模型正在赋能千行百业。在政府行业,大模型推动政府迈入智能化。在数字政府建设中,大模型将提升政府服务水平,提高政务服务的体验,同时优化决策制定、加强政府内部协同、提升城市治理能力,为打造服务化、智能化、现代化的数字政府提供关键技术支持。 1.1政务大模型应用广泛,各地陆续开展应用实践 政务大模型在政务领域有着广泛的应用场景。首先,在公共服务方面,政务大模型可以提供智能化的政务咨询和办事指引。为公众提供准确、个性化的解答,提高政务服务的效率和满意度。 其次,在政务办公方面,大模型可以辅助公文写作、文档处理、会议纪要整理、内部知识管理等日常工作。它还可以分析部门间的数据,发现管理中的问题和优化空间,促进跨部门协作。 再者,在城市治理等政府监管领域,大模型可分析城市运行的大数据,预测和识别问题,支持政府进行更科学的决策和更有效的资源分配,实现城市管理的智能化和精细化。例如在城市应急管理方面,大模型能够快速整合道路摄像头信息,为决策提供支持。 政务大模型开始在一些省市落地。在北京亦庄经开区,亦智政务大模型服务平台正式上线。平台实现了智慧政务小助手、迎商中心数字人、智能决策助手、亦城慧眼、实验室智能监管等多个场景应用。在北京市生态环境局,打造了生态环境“监管-监测-监察”--“三监”联动大模型,支撑了新阶段大气污染防治科学、精准、依法治污。在广东省政数局,上线基于大模型的AI智慧服务,提供智慧搜索和AI智能问答,提升一体化在线政务服务能力。 1.2政务大模型,以通用大模型为基础来构建 政务大模型是专注在政务领域的行业大模型,是在通用大模型的基础上,通过知识增强、模型微调或者增量预训练来构建。政务大模型构建是一个循序渐进的过程。首先,可以对通用大模型进行知识增强,通过提示词调优和数据检索提升问答效果。再者,通过微调和增量预训练形成政务领域垂直模型。不同的构建方式,都是将大模型技术与政务需求紧密结合,提高大模型对政务行业的领域知识,更好地服务于上层的政务大模型应用。 图1:政务大模型应用构建方式 1.3政务大模型,在应用形式和模型适配上具有多样性 政务领域涉及多个层级的政府机构、不同的职能部门,以及广泛的公共服务范畴。这种复杂的应用环境要求大模型具有多样化的特征,以适应不同的需求和场景。大模型应用自身的多样性,叠加数字政府不同职能部门的需求,放大了政务大模型应用的多样性。 大模型应用形式多样,在与用户交互界面上,有对话机器人、与现有应用集成的AI助手,也有处理自动化Agent智能体等形式。大模型应用可以作为独立的应用程序,如智能客服,类似于面向互联网用户的大模型对话机器人。对话机器人可以运行在手机移动端,也可以在PC上,用浏览器交互。另一些则被集成到现有的政务应用中,以AI智能助手形式,类似微 软提出的Copilot副驾驶模式,提升现有应用的智能化水平。随着技术发展,Agent智能体受到关注,智能体具备自主性、反应性和学习能力,可以与人或其他Agent智能体交互,自动化完成任务。 模型适配也具有多样性,政务大模型可以通过知识增强、模型微调和增量预训练,学习政务相关的知识,提高政务大模型回答的准确性。检索增强生成(RAG)是比较广泛的知识增强方式。RAG在用户问题上,补充政务业务的上下文,大模型在回答问题或生成文本时能够引用相关信息,提高生成内容的质量。大模型如果需要回答精确的数据,如智慧问数应用,需要引入插件访问业务系统的数据库,获取结果后再响应。 政务大模型应用和模型适配的多样性,为政务大模型应用落地带来复杂性。在政务大模型应用开始,需要仔细考虑应用场景和目标,确定应用形式和模型的适配方式,同步开展数据的准备工作。 图2:典型政务大模型应用场景 2政务大模型安全风险分类 随着政务大模型在政府管理、公共服务中的广泛应用,其强大的自然语言和数据处理和分析能力为政府决策、社会治理带来了全新的变革。然而,政务大模型的应用也伴随着各种潜在的风险,尤其在用户隐私、数据安全、内容监管等方面,涉及政务的特定要求和合规风险。本文将从政务特点出发,分析大模型在用户、应用、内容风控、数据、模型以及公网使用等方面的潜在风险。 本文围绕政务大模型与应用系统展开讨论安全风险及安全治理方法,通用大模型相关风险,如“可解释性差的风险、偏见歧视风险、鲁棒性风险等内容”等通用大模型风险问题,不在本文中做探讨。 2.1数据安全风险 数据是大模型智慧的来源,通过获取外部数据及政务数据,进行数据处理,形成高质量训练数据集。数据处理过程,面临多种风险:数据违规收集、数据泄露、勒索风险、违规使用风险等风险;同时数据标注环节也至关重要,伴随着多重风险,影响模型的安全性和准确性。 数据的违规收集:政务大模型使用数据往往涉及公众的个人信息和国家机密,若这些数据的收集和使用不符合法律规定,将面临严重的法律后果。 违规使用数据:使用未授权或违规数据进行大模型训练或内容检索增强,违反相关规定。 数据泄露:政务大模型在研发和应用过程中,因数据处理不当、非授权 访问、恶意攻击等问题,可能导致政务数据和个人信息的泄露。 勒索风险:大模型使用的政务数据若被黑客攻破,可能遭遇数据勒索或数据流失,直接威胁政府运作和社会稳定。 标注规则风险:数据标注规则不完善或模糊会导致标注人员理解不一致,进而影响数据的准确性和一致性。标注规则的不清晰还可能导致关键信 息被忽略或误标,影响模型的性能与决策能力,尤其是在政务领域,错误的数据标注可能导致政策误判或公共服务偏差。 标注人员风险:标注人员的安全意识直接关系到数据的安全性。若标注人员缺乏安全意识,可能无意中泄露敏感数据,或在标注过程中引发信息泄露。此外,恶意标注人员可能通过窃取数据、投放恶意信息(数据投毒)或篡改标注内容,故意破坏数据的完整性和准确性。 标注数据质量风险:数据标注的准确性、一致性和完整性不足,会导致模型在实际应用中的表现不佳,产生偏差或错误判断。 2.2训练语料安全风险 训练语料在模型训练中至关重要,它直接决定了模型的学习质量和生成内容的准确性。如果训练语料存在数据投毒或内容违规风险,不仅会误导模型学习错误的信息,还可能导致其生成不当或不合规的输出。 数据投毒:攻击者可能通过投放恶意或虚假数据干扰大模型的训练,导致模型输出错误或产生不当内容。 内容违规风险:训练语料的内容包含个人敏感信息、误导性信息等不当内容,导致模型生成违规或不合规的内容。 2.3大模型使用安全风险 随着政务大模型的深入应用,其安全风险也日益凸显。大模型应用安全风险是政务大模型应用过程中不可忽视的关键问题,如使用未备案的基础模型,可能引发合规性问题;大模型在生成内容的过程中存在输出不当内容的风险,可能产生违背法律、社会伦理或政策导向的结果,带来舆论和社会风险;此外,政务大模型文件是核心产物,面临着模型泄露与篡改风险。 使用不合规的基础模型:使用不合规的基础模型可能导致违规操作,并面临法律和行政处罚。如:根据国家监管要求,政务大模型的基础模型应进行备案,确保其合法合规。 生成不当内容风险:政务大模型在生成文本或提供建议时,可能输出 带有误导性、不当或风险性内容。 模型泄露风险:政务大模型的模型权重、参数和架构一旦泄露,可能被不法分子利用进行攻击或伪造内容,甚至可以通过模型反向推测训练数据,甚至还原敏感信息。威胁政务大模型的正常运行。 模型篡改风险:政务大模型一旦被攻击者通过恶意手段进行未经授权的修改,会导致大模型生成错误或误导性信息,甚至故意篡改政策解读或数据分析结果。 2.4应用安全风险 政务大模型的应用在开发和使用过程中,面临着一系列安全风险。如开源组件可能存在漏洞,代码安全风险及代码泄露问题,应用上线后面临的Web/API攻击风险等问题,威胁整个政务大模型应用系统的安全性与稳定性。 代码安全风险:政务大模型代码的安全性直接影响系统的稳定性和可信性。如果代码开发中缺乏安全措施,可能引发数据篡改、系统崩溃等问题。 代码泄露:政务系统中包含大量涉及政务信息或民生服务的敏感内容,代码一旦泄露,可能造成重大安全风险。 Web/API攻击:大模型通常通过Web接口和API为政务系统提供服务,若防护措施不足,可能遭遇恶意攻击。针对政务系统的API攻击可能导致服务中断、数据泄露或功能失效。 2.5软件供应链安全风险 政务大模型应用系统的软件供应链风险主要包括开源软件漏洞、恶意代码植入和供应商管理不善,供应链安全风险直接威胁政务大模型的安全使用。 开源软件漏洞:政务大模型应用中使用的开源软件可能存在未修复的漏洞,这些漏洞可能被恶意利用,导致安全隐患。 恶意代码植入:第三方组件或开发工具可能被植入恶意代码,危及系统 安全。 供应商管理不善:供应商的安全能力差异也带来风险,如代码质量低、 漏洞未及时修复等。 模型复用的缺陷传导风险:依托基础模型进行二次开发或微调,是常见的大模型应用建设模式,如果基础模型存在安全缺陷,将导致风险传导至下游模型。 恶意植入模型后门:攻击者通过在大模型的训练或部署阶段植入恶意代码或逻辑,使得模型在接收到特定的触发提示词时,执行未授权的操作,绕过正常的安全限制。这类后门攻击尤其危险,它可以让模型在表面上正常工作,但当特定条件满足时,模型会进入类似越狱状态,允许执行几乎任何操作。 2.6生成内容风险 大模型通过多源异构调度发挥更大价值,大模型生成内容安全合规风险极其重要,如生成违背社会主义核心价值观的内容、侵犯知识产权、泄露个人信息、保护歧视内容等风险,将会对政务大模型造成致命影响。 内容违反社会主义核心价值观:政务大模型涉及政策解读、公众沟通等方面,生成的内容必须符合社会主义核心价值观,确保正确的政治导向和舆论引导。如果大模型生成的内容出现违背国家政策或不符合主流价值观的情况,可能影响社会稳定。 侵犯知识产权:政务大模型在生成政策文件、解读报告时,可能无意间 使用了受版权保护的文本或资料,导致知识产权纠纷。 泄露个人信息:政务大模型处理大量个人信息,如果在生成内容时无意间泄露个人身份信息或其他敏感数据,将严重违反数据保护法律法规。 包含歧视内容:大模型可能由于训练数据的偏差,生成包含性别、种族或宗教等方面歧视的内容。 2.7大模型自身风险 政务大模型自身面临着多方面的安全风