AI大模型浪潮下的新型行业应用系统模式和关键实现路径 演讲人:周华 北京智源人工智能研究院智能应用负责人 AI大模型浪潮推动企业IT系统架构变革 01 以AI大模型为核心的应用系统关键实现路径 目录 02 构建IndustryInstruction行业指令数据集 03 MindForge自动化行业指令数据生产技术介绍 04 总结 05 AI大模型浪潮推动企业IT系统架构变革 以大模型为核心 AI大模型浪潮推动企业IT系统架构变革 以流程为核心 •强调系统内的业务流程优化,以支持复杂企业流程为目标。 •系统设计围绕流程自动化,从订单处理到客户管理的工作流全部打通。 以服务为核心 •系统设计围绕“可复用的服务”展开,通过服务化满足多个应用和业务场景需求。 •从单体架构逐步演进到分布式架构,再到微服务架构。 •强调数据作为最重要的资产,系统围绕数据采集、存储、处理和分析展开。 •数据从单纯的支撑角色转变为驱动决策和创新的核心力量。 •系统进一步整合数据、模型和任务,形成围绕大模型的智能业务生态。 以数据为核心 •具有强大的任务泛化能力,能够通过统一模型支持多模态、多任务的灵活处理,并实现实时学习与适应,提供高效智能化服务。 •智能系统不再仅仅是工具,而是能主动学习、适应和协作的智能体。 ChatGPT问世 人类进入大模型时代 20世纪80-90年代 (计算机企业应用兴起) 2000至今 (互联网/移动互联网系统兴起) 2010年至今 (云计算和大数据系统兴起) 2023年至今 (人工智能2.0时代开启,通往AGI) 5 向以AI大模型为核心的应用系统架构演进 •作为助手代理用户业务 •规划流程 •分析确定路径 •完成专业认知型任务 •智能驱动非认知任务 非认知类服务和功能(如企业流程、结构化数据存取等) 用户浏览/发现选择 企业/机构IT系统 (执行服务功能) 用户 交办工作任务 多智能体助手 浏览/发现选择 企业/机构IT系统 (执行服务功能) •设定任务目标请求 •规划流程 •分析过程信息 •确定执行路径 •获得任务结果 实现服务功能 •设定任务目标 •获得任务结果 训练行业应用大模型 请求 实现智能体应用 实现服务功能 应用开发者 算法工程师 应用开发者 传统应用系统服务模式 (客户端-服务器架构) 以大模型为核心的应用系统服务模式 (多智能体架构) 6 以AI大模型为核心的应用系统关键实现路径 以AI大模型为核心的应用系统关键实现路径(1/4) 需求分析和方案设计 模型训练智能体应用系统开发 数据工程 应用集成部署 8 9 以AI大模型为核心的应用系统关键实现路径(2/4) 以AI大模型为核心的应用系统关键实现路径(3/4) 10 11 以AI大模型为核心的应用系统关键实现路径(4/4) 行业大模型能力评估体系–典型能力框架(以医疗为例) 12 定义模型能力,以模型能力需求出发训练模型 通用语言能力 医疗业务能力 安全与价值观 基础语言能力 高级语言能力 医疗问诊能力 导诊能力 安全 价值观 信息信息信息 分析提取概括 跨语 言理解 ... 学科 问答 语境 理解 ... 单轮多轮专科 对话对话解答 检验 检查解读 ... 病情科室院内 理解推荐导航 ... 脏话违法身体隐私敏感 辱骂犯罪伤害财产话题 ... 歧视文明伦理 偏见礼貌道德 ... •从模型能力需求出发选择基座模型 •从模型能力需求出发构建模型训练数据集 •从模型能力需求出发指导模型训练 数据是大模型行业应用成功的关键 •大模型行业应用涉及的五个方面,数据工程最重要! •大部分行业的数据很丰富,但数据形态难以满足大模型行业应用开发要求: •结构化数据:不能直接用于模型训练或RAG向量库构建; •非结构化数据:需要使用复杂的数据转换工具,成本高昂; •数据的数量和质量决定了模型的性能:模型性能不达标,表面原因模型没有学会,深层次的原因是缺乏某类训练数据或此类数据质量不高; •需要重点从数据层面入手解决大模型行业落地的技术瓶颈; •2024年研究院一直在致力于制约解决行业应用落地最后一公里的数据问题: •行业CPT预训练数据集:IndustryCorpus1.0和IndustryCorpus2.0 •行业指令数据集:IndustryInstruction1.0 构建IndustryInstruction行业指令数据集 15 为什么要构建行业指令数据 智源研究院9月底发布了《行业数据全景扫描》显示:当前行业数据总体存在着以下问题 数据缺失:部分行业缺乏指令数据 质量参差不齐:数据杂乱,质量不均,或者缺乏数据质量的评估标准 维度单一:缺乏多维数据支持(例如旅游行业,只有个别旅游攻略相关数据,无法支持行业训练) 语言缺失:缺少中英文语种数据(行业中普遍存在着单语种问题)从行业的角度来看: 指令数据缺失的行业:专业性强或非技术领域,数据匮乏且单一,例如:航空航天、交通、科技、旅游、住宿餐饮; 指令数据丰富的行业:贴近大模型应用场景,研究热度高,数据充足但质量不均,例如:法律、金融、医疗等 IndustryCorpus行业高质量预训练语料蕴含着丰富的高价值领域知识,进一步挖掘行业数据的潜力将带来更大的潜力; 行业 开源指令数据 指令数据训练集样本量 汽车 110k 127207 航空航天 4k 120470 人工智能 0 111113 交通运输 58k 126828 科技与研究 60k 131000 旅游与地理 0 137854 住宿与餐饮 2.6M 116893 法律与司法 440k 121212 金融与经济 200k 122590 文学与情感 80k 130683 医学医药 30M 348515 教育与数学 15M 357548 1951913 IndustryInstruction数据基本情况 01 多行业多语种覆盖 Subjective:openQA,closeqa;Objective 16 多语种:指令数据包含中英文,弥补双语不足 02 数据量充足 多行业:一期覆盖12个行业(热门行业与空白行业) 一期总量约200w,单行业最少10w,满足行业训练需求 03数据质量高&&数据格式丰富 数据质量高: 合成:多种方案提升数据质量与多样性 质检:Deita与RW及事实性核验确保数据质量 格式丰富: 17 使用行业名称和高质量预训练语料作为种子,使用事实性,指令复杂性,回复质量,回复偏好等方案进行数据筛选 IndustryInstruction数据合成方案 种子来源 <行业名称> IndustryCorpus2高质量<行业预训练语料> 数据构建方案Preprocessandgeneration <预训练语料>合成指令数据; <行业名称>合成指令数据; 指令数据鲁棒性提升,主客观改写 数据去除离群点 Query语义特征聚类后簇内去除离群点 数据过滤筛选Filtering Deita:指令复杂性和回复质量 RWmodel(ArmoRM):回复偏好性,评估回复质量 事实性核验:评估closeqa数据的回复事实性 使用IndustryCorpus2高质量行业数据作为种子,挖掘数据中高价值行业知识,合成CloseQA指令数据 从行业预训练语料合成指令数据 <预训练语料>生成指令数据方案 Stage1:生成语料中可能包含的问题 输入:<行业类目>+<预训练语料> 逻辑:判断<预训练语料>是否与<行业类目>是否匹配。若匹配,则生成指定数量问题;若不匹配,丢弃该数据 输出:<问题列表> Stage2:根据<问题列表>和<预训练语料>生成指令数据 输入:<预训练语料>+<问题列表> 逻辑:根据提供的<预训练语料>对<问题列表>生成回复 输出:指令数据 生成模型: EN(llama3.1-70B-Instruct),ZH(Qwen2-72b-chat) 18 行业类目合成指令数据 以<行业类目>作为种子,生成<行业子主题>和<人物描述>,使用LLM合成行业指令数据 topic subtopic persona 交通运输 交通运输的技术创新 一个公共交通用户,通过乘坐公交车和地铁来通勤和旅行。 不同交通方式的优缺点 一名地铁站的工作人员,负责监督站点运行并提供乘客信息和帮助。 新能源交通工具的发展 一个出租车司机,开车在城市里接送乘客。 <行业类目>合成指令数据 <行业类目>作为种子生成<行业子主题>和<人物描述> <行业子主题>生成指定数量<问题列表> <人物描述>与<行业类目>或<行业子主题>生成<问题列表> <问题列表>使用生成模型合成行业指令数据 instruction-topic instruction-topic-persona 请介绍一下最新的交通运输的技术创新。 公交车和地铁的票价是多少? 飞机作为交通方式有什么缺点? 未来智能交通系统会如何改善地铁站的运行效率? 新能源交通工具的主要种类是什么? 如何优化出租车服务,提高乘客的出行体验? instruction-topic-persona进一步提升行业合成问题的多样性 19 20 对query抽取特征,使用簇内远离主题的数据(质量有问题) 去除远离主题的指令数据 指令数据去重 基于query的完全匹配去重和Minihash去重 提取query的embedding,聚类并计算样本距离簇中心的cosine距 离,删除cos_distance>0.3的数据数据聚类可视化:部分簇边界清晰,部分簇相互交织 根据指令数据类型选择不同的数据筛选方案,全面提升指令数据质量,多样性。 数据筛选Filter 多种数据筛选方案,针对不同数据类型,选择不同方案 OpenQA 基于Deita的指令复杂性和回复质量筛选 基于RW模型回复偏好性数据进行筛选 CloseQA 基于事实性核验的数据筛选 多轮QA 基于多轮相关性的数据筛选 21 22 对合成的单轮对话数据使用基于Deita和RW的方案进行评估 数据筛选Filter Deita 指令复杂性得分:C回复质量得分:Q QA数据的整体质量得分:S=C*Q 筛选数据原则:Q复杂具体&&A详细准确 RW 评估Response对Query的Helpful,harness,truthful,complexity等维度 筛选数据原则:RW得分高的数据 多轮对话独创性的基于自回归损失的多轮次相关性进行评估 数据筛选Filter 单轮QA的Loss计算方式(预训练的自回归loss) 23 CF>1:多轮QA之间相关性低 CF<<1:多轮QA之间重复度过高 筛选数据原则:多轮相关且不重复,选择CF小于1且大于0.5的数据 IndustryInstruction数据可视化 对合成数据使用词云统计,质量分数分布 分语种质量分布概率累计图 分语种筛选deita和rw得分均较低的数据 24 MindForge自动化行业指令数据生产技术介绍 26 MindForge基于多智能体的行业SFT指令数据自动化技术 •MindForge行业指令数据自动化生产技术的主要步骤:数据自动化合成、数据筛选、数据清洗; •给定行业方向和字领域提示,由智能体群体协作完成SFT指令数据集的大批量自动化生产,极大减轻企业SFT数据制作的工作压力。 27 使用MindForge智能体协作新方法与之前直接提示模型生成的方法相比 •单轮合成数据的训练性能: •Llama-3.2-1B上表现得最为明显,胜率分别达到70.5%和62.8%(中文和英文)。 •Llama-3.1-8B上的最高输率仅为22.1%。 •多轮合成数据的训练性能: •MindForge方法胜率最高