行业研究公司研究宏观策略财报招股书会议纪要稳定币低空经济 DeepSeek AIGC 智能驾驶大模型

大语言模型在法律领域的应用探索

2024-11-14蔡华华院计算&算法实验室F***

AI智能总结

法律大语言模型的应用探索

技术背景

语言模型发展阶段：
- 统计语言模型（20世纪中叶）
- 大规模语言模型（2020年前后）
- 神经语言模型（20世纪末至今）

法律大语言模型的表现

能力：
- ChatGPT 达到合格水平，GPT-4 表现“可与人类相媲美”
- 2023年8月，浙江大学、阿里巴巴达摩院和华院计算联合发布了法律大模型
挑战：
- “幻觉”模型生成不真实或虚构的法律内容
- 可解释性不足，模型为“黑箱”操作
- 知识融合不足，数据驱动与知识指导结合不足

训练和评估

数据收集：
- 法条类、案例类、模板类、书籍类、法律考试类、法律日常问答类
- 构建法条和案件关系图谱
数据清洗：
- 规则去重、语义去重、内容过滤、人工审查
参数调优和资源需求：
- 微调训练需大量计算资源
- 资源需求平衡分析
评测指标体系：
- 法律文书检查、案件要素抽取、法律文书摘要、法律法规问答、案件咨询问答、证据链分析、案情分析、司法决策推理
性能指标：
- F1正确性、响应时间、完整度、处理效率

应用框架

系统架构：
- 群众端、业务端、AI律师、业务全流程智慧赋能助手、AI调解员、AI政务顾问、法院社会治理中心、党群服务中心
华院RAG平台：
- 本地专有知识融合
- 性能优化模块：数据处理、模型推理、知识管理、用户交互
知识创建管理：
- 智能文档解析、关键词检索、多向量语义检索、混合检索
应用案例：
- 法律文书生成、案件要素抽取、法律咨询问答、证据链分析、案情分析、司法决策推理
- 法律AI助手、小雪人法律智能助手

总结

法律大语言模型将更加智能化和个性化，为法律领域提供更精准的解决方案，提高法律服务的效率。在技术发展过程中，如何保护用户数据的隐私和安全是一个重要挑战，需要采取有效的措施来应对。

大语言模型在法律领域的应用探索演讲人：蔡华华院计算/大模型算法负责人 CONT目E录NTS 01 技术背景 02 训练和评估 03 应用框架 04 应用案例法律大语言模型的相关背景 1.法律大模型|语言模型发展阶段统计语言模型神经语言模型预训练语言模型大规模语言模型第一阶段第二阶段第三阶段第四阶段 20世纪中叶开始发展，在七八十年代达到鼎盛 20世纪末自神经网络发展以来不断发展，包括RNN以及LSTM 2017年前后，Transformer架构的发布成了BERT、GPT等许多预训练模型的基础 2020年前后，OpenAI发布了包含1750亿参数的GPT-3模型，展现了卓越的能力 ONETWO THREE FOUR 1.法律大模型|语言模型发展阶段统计语言模型神经语言模型预训练语言模型 N-gram RNN GPT •这是文字这是文字 •这是文字这是文字 •这是文字这是这是文字 •这是文字这是文字 THREE ONET ChatGPT在两项试题达到了合格率，其中一项还跟人类水平持平。 W 1.法律大模型|大语言模型在法律领域的表现 GPT-4表现“可与人类相媲美”，其在律师资格考试（UBE）分数超过90%考生。 1.法律大模型|法律大语言模型 2023年8月，浙江大学、阿里巴巴达摩院和华院计算联合发布了法律大模型。 1.法律大模型|挑战知识融合不足法律任务通常需要数据驱动和知识指导相结合，通用的大模型在这方面的能力尚显不足。可解释性欠缺在法律人工智能中，模型的可解释性至关重要。然而，大模型往往是“黑箱”操作，难以让用户理解其决策过程。 “幻觉” 模型有时会生成不真实或虚构的法律内容和案例，误导用户。领域知识融合知识图谱关联知识检索增强法律大语言模型的训练和评估 2.训练与评估|领域数据收集 •收集了多源异构知识数据，不仅包含6种类型的知识：法条类、案例类、模板类、书籍类、法律考试类、法律日常问答类，我们还以法条和案件为中心节点构建了它们的关系图谱数据。 2.训练与评估|领域数据清洗规则去重语义去重内容过滤敏感信息 01 数据去重 02 数据筛选数据改造罪名法条 01 多样化指令刑期预测法考题解释法院意见案件事实摘要人工审查质量管控 03 02 多轮对话庭审问答文本抽取结构化角色扮演标准规范化上下文信息 2.训练与评估|领域知识融入模型训练法律大模型 C为Decoder类模型所需计算量，N为模型参数量，D为数据量 2.训练与评估|参数调优和资源需求资源需求分析高效参数微调资源需求平衡 •微调训练需要大量计算资源 •合理规划资源提升训练效率 •提升模型性能和泛化能力 •缓解模型的灾难性遗忘 •找到资源需求的平衡点 •获得最佳模型性能和资源利用效率微调训练方法重新参数化网络带宽模型基座选择增加部分参数存储设备训练数据选择冻结部分参数显卡集群 2.训练与评估|法律大语言模型评测指标体系法律大模型评估指标体系性能指标有效性相关度完整度正确性并发路数处理效率首字响应时间 F1 质量指标可维护性可靠性法律文书检查法律要素抽取法律文书摘要功能指标法律文书生成安全性指标问题项内容禁止项内容办案报告生成结构化文书生成法律法规问答案件咨询问答司法程序问答证据链分析案情分析司法决策推理 01语言理解 03 法律咨询 法律文书检查案件要素抽取法律文书摘要 法律法规问答案件咨询问答司法程序问答 02内容生成 04 逻辑推理 法律文书生成办案报告生成 结构化文本生成 证据链分析 案情分析 司法决策推理 2.训练与评估|法律大语言模型能力体系法律大语言模型的应用框架大语言模型特定领域通用领域 UniLaw大模型6-72B大模型国内主流大模型GPT4-API 检索召回模型 BGE向量模型关键词召回模型多模态理解模型 ReRank模型文档解析模型版面分析文字识别表格识别图文多模态摘要模型协同 3.应用框架|系统架构应用场景群众端业务端社会治理中心党群服务中心法院业务全流程智慧赋能助手 AI政务顾问 AI调解员 AI律师场景适配检索设定关键词检索语义检索多模态图片检索层次检索场景逻辑设定知识库配置模型配置 prompt场景设定响应策略设定业务协同意图识别调度编排 agent插件 NL2SQL 知识管理文档解析 40种格式解析复杂表格处理图片摘要汇总知识图谱解读知识组织问答对自动抽取问答对问法拓展语义文本切分层次化知识管理业务插件法条法规政策文件法律书籍司法案件 3.应用框架|华院RAG平台——本地专有知识融合 3.应用框架|华院RAG平台——性能优化推理设计根据应用场景的不同设计实时推理、批量推理以及异步推理，利用缓存策略和预计算来减少重复计算，提高系统响应速度。可解释性提供推理结果的可溯源，便于用户理解和信任模型的输出。认知推理引擎模块化数据处理模块、模型推理模块、知识管理模块、用户交互模块等。以确保系统的可扩展性和可维护性。交互反馈用户友好的交互界面，使用户能够提供有效反馈，将用户的反馈融入模型迭代和优化中，进一步提升模型的实用性和准确性。分布式可调度的分布式计算资源来处理海量数据和高并发请求 3.应用框架|华院RAG平台——知识创建管理 word excel pdf 图片 40种格式文字识别固定大小版面分析智能文档解析文本切分语法特征表格解析内容意义关键词检索多向量语义检索混合检索多栏通用场景精准识别支持简体中文/繁体中文 /英文/数字等主流语言图片、公式、流程图等富文本识别跨页表头、索引列、复杂表格增强解析通用文本切分场景多层知识体系完整语句/片段场景存在目录/层级结构的场景知识导入知识检索知识融合答案生成 3.应用框架|华院法律大模型——RAG知识检索增强法律大模型 •将法条库、案例库、工作条例、相关政策等本地多源数据导入知识库，自动理解学习沉淀为知识，借助混合知识检索和大模型总结归纳的能力，精准回答特定业务场景的问题。 3.应用框架|华院RAG平台——本地专有知识融合 •利用认知智能引擎支撑检索知识增强（RAG）模块化、流程化，实现模型的快速迭代优化，对本地知识进行导入，理解，沉淀和管理，借助大模型总结归纳的能力，精准回答特定业务场景的问题。 •常用问答FAQ库 •主流通用大模型接口 •本地专有大模型 •结构化知识图谱 •文档知识库知识选择网页UI 多模态输入 RAG平台 10min编排应用1s超快响应应用发布多元化输� 模型选择 •专属微调定制模型 •智能文档解析模型 •语义向量模型 •二次重排序模型终端APP •MySQL数据库 •在线网络数据平台bot 二次开发API 3.应用框架|华院法律大语言模型拴绳遛狗时，其他人逗狗，结果伤了人，狗主人该赔偿吗？法律大模型拴绳遛狗时，如果其他人逗狗导致狗伤人，狗主人是否需要赔偿，需要根据具体情况分析。以下是一般情况下可能涉及的法律问题和责任划分： 1.狗主人的管理责任... 2.第三方的过错... 3.责任比例划分... 一般情况下仍需承担一定的赔偿责任，但具体责任比例可能因第三方过错的存在而减轻。法律大语言模型的应用案例 4.应用案例介绍|研发理念基础算力智慧信访智慧矛调智慧审判法律数字服务法治业务以信息化、数字化技术推动区域司法行政效率与公共法律服务水平提升，落实法治政府、法治社会数字化赋能法治法治决策以智能化、数字化技术推动法治运行态势的可知、可视、可析、可测，赋能区域法治问题的发现与施策全域法治监督审判问题研判基层矛盾预警社会问题研判应用能力 4.应用案例介绍|赋能社会治理法律大语言模型赋能案情分析根据案件描述，结合知识库进行案情分析法条推荐根据案件描述，推荐相关的法条法律文书生成根据案件描述，快速生成准确的法律文书法律问答满足法律咨询等日常场景 4.应用案例介绍|类案推荐发挥已完结案件剩余价值，将过往依托于工作人员办理的“经验之谈”转化为可全员可用的“利器”，依托数字档案中的“案例库”，借助自然语言处理和智能搜索技术，为基层工作人员提供相似案例作为参考依据，并利用大模型分析总结当前案例和推送案例的异同点，提高工作处理的效率和准确率。 4.应用案例介绍|判决文书生成案例背景法院案多人少，案件审理周期长，每个法官都有多个案件并行审理，法官庭审结束不能及时制作判决书，容易遗漏庭审细节。解决方案导入起诉状、答辩状、证据证物等材料，借助文本抽取算法理解材料内容，最终通过大模型总结归纳的能力，生成判决书。华院法律大模型庭审细节判决文书价值成效只需小幅修改，即可发布正式判决书，在提升精度的同时，大幅提升工作人员效率。 4.应用案例介绍|法条推荐基层工作人员在办理过程中相对缺乏全面的法律知识，存在事项责任不清，办理效果不佳的情况，法律大模型可基于案件办理登记的案件细节，进行深度法律分析推理，给予相关智能法条推荐，同时也支持工作人员进行自定义法条检索，增强办理人员的权威性。 4.应用案例介绍|法律AI助手 •以法律大模型为大脑，数字人为载体，构建普及法律、化解矛盾、答疑解惑的法律AI助手。华院法律大模型垂直大模型底座本地业务知识学习数字人智能对话热点问答权威性：法律大模型全面收录了3189部法律、50504部法规，并在20个司法子任务中使用10万条指令进行训练。 e.g.“请问违章搭建去哪里反映？” 知识图谱/表 e.g.办理事项与窗口关系表.xlsx 非结构化文档 e.g.当地政策文件.docx 针对性：借助RAG能力，轻松让大模型理解本地业务文档和知识，精准回答特定场景问题。请问违章搭建去哪里反映？如果您发现存在违章搭建行为，可以向以下相关部门反映： 1.城市管理部门（城管局）... 2.城乡规划部门... 3.国土资源部门（自然资源局） 4.... 举报后，相关部门会根据举报内容进行调查核实，如确属违章搭建，将依法进行处理。交互性：低延迟流式生成的数字人，支撑顺畅又智能的对话体验。搭载多样终端，带来更大想象空间。 4.应用案例介绍|小雪人法律智能助手总结展望 01 02 03 内容总结回顾了语言模型的发展：介绍法律大语言模型的训练评估、应用框架和应用案例；技术发展大法律语言模型将更加智能化和个性化，为法律领域提供更精准的解决方案，提高法律服务的效率。隐私安全在训练和使用大语言模型过程中，如何保护用户数据的隐私和安全是一个重要的挑战，需要采取有效的措施来应对。华院计算技术（上海）股份有限公司算法实验室行业场景 •以算法研究和创新应用为核心，着力发展认知智能技术，为社会治理，工业制造，生物医药，金融零售等行业提供智能化的产品和服务，推动行业智能化的转型和升级。 •致力于数学应用与计算技术发展，提供底层智能引擎，引领算法自主创新，实现数据的价值化，世界智能化。

点击免费查看完整报告