您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [清新研究团队]:AI幻觉深度研究报告:基于政府与监管来源核验的机制、风险、治理与抑制幻觉工程研究 - 发现报告

AI幻觉深度研究报告:基于政府与监管来源核验的机制、风险、治理与抑制幻觉工程研究

信息技术 2026-04-21 - 清新研究团队 陈曦
报告封面

基于政府与监管来源核验的机制、风险、治理与抑制幻觉工程研究基于政府与监管来源核验的机制、风险、治理与抑制幻觉工程研究 @清新研究团队2026年4月21日 为什么现在必须重做“幻觉”研究 执行摘要:本报告的三个总判断 一判断一:幻觉是“生成一采信一执行”链条上的系统性风险,而不是单点准确率问题。 一判断三:真正有效的方案是复合治理栈,检索锚定、拒答机制、人工复核、日志监测与责任制度并行。 一判断二:基准分数无法替代场景化评估,风险必须放回后果严重度、可发现性和业务语境中衡量。 核心结论速览01:幻觉不可被彻底消灭 左侧神话:零幻觉 一NIST将幻觉表述为 confabulation,强调它来自统计生成机制本身,而不是少数异常案例。一英国政府框架明确指出,不存在永不产生虚构输出的模型,治理重点,应是测试、监测、反馈和人类控制。一因此,组织的目标不应是零幻觉宣传,而应是可识别、可约束、可追责、可持续优化 核心结论速览02:高可信品牌会放大幻觉风险 高可信品牌VS.普通聊天场景 在 GOV.UK Chat 实验中用户满意度并不低,但官方仍观察到若干幻觉案例。 高可信品牌(权威界面) 普通聊天场景 A官方特别提醒:GOV.UK品牌的可信度会让用户低估系统失真风险,形成过度信任。 一这说明公共服务、医院、高校、金融机构等权威界面,比普通聊天场景更需要显性护栏。更需要 用户倾向于信任品牌,忽视风险。需要更强的护栏。 用户具有一定戒心,容错度稍高。护栏相对灵活。 核心结论速览03:抑制幻觉会带来新的权衡 权衡与场景 一MHRA案例表明,RAG可显著压低重大幻觉,但更严格的护栏也可能提高遗漏率。 一高风险场景可以容忍更多拒答,低风险创意场景则可容忍更高生成自由度。 第一部分丨从热词到风险对象 NIST如何定义“幻觉 NIST使用confabulation一词,指模型自信呈现错误或虚假的内容,也包括偏离提示和前后矛盾。 定义金字塔:事实、逻辑、引用、上下文 一这一定义说明:幻觉不只等于‘事实错”还包括‘逻辑错”“引用错和上下文错” 对组织来说,(真正危险的是错误以可信口吻出现,并被用户当成了可以执行的答案。 @清新研究团队|2026年4月21日|数据来源:https://nvlpubs.nist.gov/nistpubs/ai/NIST.Al.600-1.pdf 为什么“最像真的句子”不等于“最接近真的答案 两条路径对比:流畅语言vs可验证证据 一生成模型追求的是高概率文本而不是外部世界的真值证明。 一语言流畅、结构完整、语气笃定,会让用户把表达质量误判为事实质量。 一于是,AI幻觉首先是一种认知风险:人更容易相信会说话的系统而不是会举证的系统。 六类典型幻觉类型:总览 危险一引用性、语境性、逻辑性、行动性与遗漏性幻觉,共同构成真实业务中的主要风险谱系 类型一:事实性幻觉 第一点:模型直接生成不存在或错误的事实数字、对象与事件,是最直观的一类幻觉。 第二点:它在开放问答和陌生主题里较常见,但未必是组织后果最重的一类。 第三点:若用户意识到系统可能不可靠,事实性幻觉反而更容易被怀疑与识别。 引用性幻觉类型二: 一模型伪造、错配或误引法规、判例、论文、页码、链接和脚注,制造“已有证据”的错觉。Q研究 一这类错误会在研究、法律、政策、合规和学术写作中迅速扩散。 条伪引一旦进入PPT、备忘录或论文,就会从模型错误变成组织知识污染。 类型四:逻辑性幻觉类型四:逻辑性幻觉 类型三:语境性幻觉类型三:语境性幻觉 一语境性幻觉:答案在一般常识上似乎没错,但对当前国家、行业、时间点或任务边界并不适用。 一逻辑性幻觉:模型在证据不足时补出一套连贯、顺滑、貌似严密的解释链条。 一对用户而言,越是“像专家陈述”,越不容易意识到推理链其实建立在证据空白上。 类型五:行动性幻觉类型五:行动性幻觉 类型六:遗漏性幻觉类型六:遗漏性幻觉 一遗漏性幻觉则表现为过度保守、漏掉关键事实、误拒答,尤其在高护栏系统中常见。 行动性幻觉常见于agent或工具调用:不仅说错,还会调用错工具、传错参数、误触发流程。 这两类问题共同说明:治理目标不是单纯把文字写对,而是让系统在业务链中做对事。 总览幻觉的五个根因机制: 根因一:统计生成机制 模型的本职是根据分布生成最可能的后续文本,而非自动连接外部真值。→ 只要现实约束没有被及时注入,模型就会用语言概率去填补知识空白。 因此,能接着说下去”本身就是幻觉的结构起点。 根因二:知识边界与专业断层 NIST指出,在开放式长回答需要高度上下文/专业知识的场景中,失真风险尤其突出。 通用模型更擅长平均化知识,不擅长处理实时、版本敏感、组织内部或强专业语境的问题。 所以幻觉并非均匀分布,而是在专业边界处显著升高。 @清新研究团队2026年4月21日数据来源:https://nvlpubs.nist.gov/nistpubs/ai/NiST.Al.600-1.pdf 根因三:提示不充分与指令冲突 一这意味着很多幻觉并非“模型故意乱说而是系统把“必须回答”当成默认目标。幻觉 @清新研究团队「2026年4月21日数据来源:https://www.gov.uk/government/publications/ai-insights/ai-insights-prompt-engineering-html 根因四:组织对速度与完整感的偏好 根因五:检索一生成错配 @清新研究团队2026年4月21日|数据来源:https://www.gov.uk/government/publications/ai-insights/ai-insights-rag-systems-htm! 从基准分数到真实世界后果 一重点看三类场景:公共服务、医疗与组织采用/网络安全 核心问题是:错误一旦被采信,如何穿透界面进入流程。 为什么说“基准好”不等于“上线可靠 真实世界使用 实验室测试 离线基准无法完整覆盖提示模糊、信息更新长链任务和用户多样性带来的风险。 NIST明确指出,实验室测试和真实世界使用之间存在显著测量缺口 因此,真正重要的不是单一榜单分数,而是具体业务语境下的持续评估 测量幻觉至少要看三个维度 NIST给出的测量启发 ·建立持续的风险测量机制,而不是一次性评估。 :在具体使用语境中采用标准化测量协议、红队测试与外部独立评估。 对不同人群与使用场景保持代表性,避免只在受控实验室里自证安全。 真实世界案例01:GOV.UKChat的体验一准确性分叉 官方对157名用户的后续调查显示:近70%认为回答有用,略低于65%表示满意。 但官方同时观察到若干幻觉案例,并强调对GOV.UK品牌的信任会放大误信风险。 这说明高满意度并不自动等于高可信度 品牌会放大幻觉GoV.UKChat给组织的第一课: 普通聊天工具 政府、医院、高校和金融品牌 因此,权威界面不是风险缓冲器,而可能是风险放大器 组织若忽略品牌效应,就会高估用户自行核验的能力 GOV.UKChat给组织的第二课:模糊问题最危险 一这意味着问题重写、澄清询问、范围收缩与引导式交互,是前置置减险的重要环节。 真实世界案例02:联邦机构用例在一年内约增长9倍 一GA0报告显示,2024年11个联邦机构报告的生成式AI用例为282个,较2023年的32个约增长9倍。 一同一时期,总体AI用例从571增至11110,说明采用速度正在快速提升。 一当采用加速而治理滞后时,幻觉问题就会从试验风险变成运营风险。 联邦机构的用例结构说明了什么 一282个生成式AI用例中,(61%集中在内部使命支持,15%用于政府服务,9%用于健康医疗。这说明生成式A/首先渗透的是“写、读、搜、总、跟踪”等日常流程,而非少数实验性任务。一越是高频、低摩擦、被默认为“只是辅助”的环节,越需要前置的幻觉护栏 组织采用加速,但治理能力并未自动同步 GAO访谈显示,机构面临的难题包括合规约束、预算资源和使用政策维护。这表明幻觉治理不是单靠技术团队就能补齐的能力,而是采购、合规、培训、上线审批与内控协同问题采用越快,越要避免把,“试一试”的工具默默推入正式流程。 真实世界案例03:英国跨部门研究看到的主要担忧 GDS的公共部门研究覆盖20多个政府部门、150多名参与者。 研究显示,准确性(偏见)隐私、安全和误用,是最核心的共性担忧。 这说明幻觉风险”在组织感知上并不孤立,而与合规、安全伦理和能力建设交织。 @清新研究团队2026年4月21日|数据来源:https://cddo.blog-gov.uk/2025/03/27/gdss-user-research-on-ai-in-government/ 真实世界案例O4:FDA看到的高风险边界 一 FDA 指出,生成式AI在医疗中有巨大潜力,但当输出边界不清时,会增加对预期用途和风险分类的监管困难。 一尤其在必须依赖真实、准确、可核验信息的场景里,幻觉构成显著挑战。 预期用途? 一医疗监管把幻觉问题上升为全生命周期安全控制问题,而监控不仅是回答质量问题。 (IntendedUse) 风险分类? (Risk Classification) @清新研究团队|2026年4月21日/数据来源:https://www.fda.gov/media/182871/download 一个重要背景:AI已进入规模化医疗监管 FDA官员在2026年初表示,已授权超过1200个AI-enabledmedical devices. 。这意味着高风险行业中的A/使用已不是零星试验,而是进入规模化监管阶段。 当A/进入大规模临床和医疗设备体系,,幻觉治理就必须具备制度级成熟度 真实世界案例05:MHRA的临床问答对比结果 MHRA案例告诉我们:遗漏有时并不比幻觉更轻 右:错误补全 左:空白遗漏 一如果系统为了安全而频繁不回答临床人员可能失去效率,甚至错过关键提示 一如果系统为了显得全面而继续补全则可能直接误导临床决策。 一因此,抑幻觉工程必须把‘遗漏风险,与幻觉风险放在同一张决策表上。 医疗案例沉淀出的工程原则 高风险工程金字塔 一允许拒答、返回引用、暴露不确定性、保留人工override权,是高风险场景的基本配置。 一对“模型没有足够信息”的情形,系统应给出结构化告知,而不是继续猜测。 一高风险领域里,可信不是“总能回答”而是“知道何时不该回答 教育场景:学生面对的是知识还是错觉 英国教育指导明确提醒:生成式AI会给出荒谬、错误或虚假但像事实一样的话。 一在学生端应用时,问题不只是正确率而是知识习得方式是否被错误地重塑 一如果学生先接受‘流畅但未经核验的答案”批判性阅读与证据意识都会被削弱 法律、研究写作与学术生产:最危险的是引用性幻觉 网络安全场景:从文本幻觉走向系统边界问题 当模型被嵌入工作流、邮箱、表单、代理和外部系统时,幻觉就会升级为边界失守。 NCSC提醒:LLM既会把错误当事实,也易受提示注入和数据投毒影响。 当前模型并不会在提示内部稳健地区分“指令”和“数据”,这使外部文本可能变成内部命令。 Promptinjection为什么会放大行动性幻觉 一NCSC指出,提示注入不是SQL注入的简单翻版,因为LLM天生不稳健地区分指令与数据。 一这意味着,只要代理系统摄入了外部文本,就可能把恶意内容当作新指令执行。 一所以agent场景的核心不是“回复像不像人”,而是“系统边界能不能守住”。 第三部分从知道有风险到真正能治理 ·本部分转向治理:官方框架怎么说,组织应该怎么做,哪些制度最关键 ·重点包括:人类复核、内容标识、持续监测责任归属与agent安全边界。 幻觉治理的成熟度最终体现在流程和责任,而不只是模型参数。 官方框架的共同点一