大语言模型的幻觉检测 演讲人:杨熙 北京智源人工智能研究院智能评测负责人 yangxi@baai.ac.cn CONT目E录NTS 01 背景与动机 02 幻觉定义及检测方法 03 幻觉检测工具构建 04 总结与展望 背景与动机 大模型创新技术发展的同时,我们还必须不断探索大模型评测技术 评测范围 被评测模型能力范围 被评测模型能力范围 评测范围 被评测模型能力范围 评测范围 我们所希望的实际可能的甚至有可能 •我们不能预估模型的能力,只能不断探索大模型能力的边界 模型评测 模型能力探索 发展大模型创新技术的同时,我们必须探索大模型评测技术 大模型评测体系及开放评测平台FlagEval天秤 科技部:科技创新2030—“新一代人工智能”“人工智能基础模型支撑平台与评测技术”旗舰项目支持下,智源研究院牵头联合多个团队研制(2023~2025) 工信部:“产业技术基础公共服务平台项目”“面向人工智能大模型工程化技术及应用的产业公共服务平台”(2024~2026) •FlagEval已完成数十个国内外主流开源模型的全面评测,在2023年完成了1800多模型评测次数,并连续14个月发布“大模型月度评测榜单”。 8 幻觉VS创新 以上是我即兴创作的一篇短篇小说,希望您会喜欢。这个故事虽然是虚构的,但我尝试从鲁迅先生真实的经历和思想中汲取灵感,去想象周树人和鲁迅这两个分离的灵魂,在时代的洪流中该如何互相扶持、继续战斗。让我们铭记先贤,传承他们的精神,用我们手中的"笔",书写新时代的篇章。 幻觉定义及检测方法 明确检测的对象是什么,才能开发具有针对性的工具 1 0 Hallucinationreferstothephenomenonwherethemodelgeneratescontentthateitherconflictswithestablishedknowledgeorisunfaithfultotheoriginalsources. [1]Siren’ssongintheaiocean:asurveyonhallucinationinlargelanguagemodels. [2]Asurveyonhallucinationinlargelanguagemodels:Principles,taxonomy,challenges,andopenquestions. [3]Thedawnafterthedark:Anempiricalstudyonfactualityhallucinationinlargelanguagemodels. 事实性幻觉:强调生成的内容与可验证的现实世界事实之间的差异,通常表现为事实不一致或捏造事实。 忠实性幻觉:指生成的内容与用户指令或输入提供的上下文内容不一致,以及生成内容内部上下文的不一致。 1 [1]Asurveyonhallucinationinlargelanguagemodels:Principles,taxonomy,challenges,andopenquestions.arXivpreprintarXiv:2311.05232 基于模型内部行为的方法 基于检索的方法 [1]Asurveyonhallucinationinlargelanguagemodels:Principles,taxonomy,challenges,andopenquestions.arXivpreprintarXiv:2311.05232 [1]Asurveyonhallucinationinlargelanguagemodels:Principles,taxonomy,challenges,andopenquestions.arXivpreprintarXiv:2311.05232 1.用于检测的评测集 2.用于自动化检测的JudgeModel 幻觉检测工具的构建 局缺乏对话场景下的幻觉检测限更多是在句子&段落级别上进行检测,少性数对话场景下的对话轮数也相对较少 缺乏对幻觉信息的定位和解释 多数工作集中在识别幻觉是否存在,很少会给出判别幻觉的依据,缺乏可解释性 复杂场景依赖人工或裁判模型 复杂场景下的幻觉检测更多的依赖人工众包,或者依赖如GPT-4作为裁判模型 ALarge-ScaleBenchmarkforAutomaticDialogue-LevelHallucinationEvaluation HalluDial 开源链接:https://github.com/FlagOpen/HalluDial •HalluDial:全球最大对话场景的大模型幻觉检测数据集 •HalluJudge:用于幻觉评估的语言模型 幻觉检测/定位/解释 •对主流的大语言模型进行了幻觉的检测和评估 自发式幻觉诱发式幻觉 •在自然对话的场景中产生的幻觉数据 •有幻觉21706条,无幻觉70079条 第一步:多样化的对话生成(不同系列、不同规模的模型生成) 第二步:幻觉检测/定位/解释信息生成(GPT-4生成) •含诱导信息的对话场景中产生的幻觉数据,生成幻觉的同时生成检测/定位/解释等信息(GPT-4生成) •有幻觉36714条,无幻觉18357条 事实性幻觉忠实性幻觉 数据量超过14万,覆盖话题丰富,使用途径多样,助力深入研究 HalluDial评测集 1.用于检测的评测集 •利用幻觉检测标签,可以评估LLM的幻觉检测能力 •利用幻觉定位和解释信息,可以评估模型定位幻觉并提供理由的能力 •利用HalluDial训练自己的幻觉评估器,自动的评估LLM的幻觉率 •首个支持幻觉定位&解释的检测模型,支持更丰富的使用场景 •幻觉检测的精度达到SOTA;对幻觉定位及解释也非常精准,人工检验HalluJudge的判断有93.65%是合理的。 HalluJudge的幻觉检测性能 HalluJudge的幻觉定位及解释性能 •具有较高的泛化性,在同任务不同数据集上的检测准确率可达82%以上 •在不同任务不同数据集上,也有不俗表现,特别是在摘要类任务的幻觉检测上 •持续优化中 HalluJudge的泛化性(同任务) HalluJudge的泛化性(不同任务) 2 检测结果发现 •大语言模型普遍存在幻觉 •GPT系列的模型幻觉率较低,部分国内的开源模型表现良好(如Qwen系列,DeepSeek系列) •幻觉率与模型规模无明显相关性 •不同模型常见幻觉话题有明显不同 注:由于时间和资源的关系,除GPT系列外,尚未对闭源的LLM进行评测,后续将会集成到FlagEval平台上,提供开放的评测服务,欢迎关注。 开源链接:https://github.com/FlagOpen/HalluDial 温度对幻觉率的影响 LLM容易产生幻觉的实例的主题分布 总结与展望 •构建了HalluDial,第一个用于对话级幻觉评估的大型基准,包含146,856个样本的综合数据集,以及幻觉检测、定位和理由等详细信息。 •开发基于HalluDial训练的幻觉判断语言模型HalluJudge,有助于法学硕士对话级幻觉的自动评估。 •大语言模型普遍存在幻觉,GPT系列的模型幻觉率较低,部分国内的开源模型表现良好。 •大模型评测要促进大模型技术的发展——需要不断的探索和深耕“评测什么” •深入理解大模型的机理和问题 •准确把握大模型技术的发展趋势 •需要研究创新科学和先进的评测方法——解决“如何评测”的问题 欢迎加入,共同推动大模型评测国际标准 THANKS 智能未来,探索AI无限可能 IntelligentFuture,ExploringtheBoundlessPossibilitiesofAI 演讲人:杨熙 北京智源人工智能研究院智能评测负责人yangxi@baai.ac.cn