行业研究公司研究宏观策略财报招股书会议纪要 Token 低空经济十五五 AIGC 大模型

AI大模型浪潮下的行业应用新模式和关键实现路径

2025-02-01 周华北京智源人工智能研究院用户zL5HoU

AI大模型浪潮推动企业IT系统架构变革，从早期的以数据为核心、服务为核心、流程为核心，逐步演进到以AI大模型为核心的应用系统架构。这种演进的核心特征是系统围绕大模型构建，具备强大的任务泛化能力和实时学习适应能力。

以AI大模型为核心的应用系统关键实现路径包括需求分析和方案设计、模型训练、智能体应用系统开发、数据工程和应用集成部署。其中，数据工程是关键环节，模型性能受限于数据数量和质量。行业大模型能力评估体系需从通用语言能力、高级语言能力、安全与价值观、医疗业务能力等多个维度进行考量。

Industry Instruction行业指令数据集的构建至关重要，当前行业数据存在缺失、质量参差不齐、维度单一、语言缺失等问题。Industry Instruction数据集一期覆盖12个行业，总量约200万，采用多行业、多语种、数据量充足、数据质量高、格式丰富的策略，通过种子来源、数据构建方案、数据去除离群点、数据筛选等步骤确保数据质量。

MindForge自动化行业指令数据生产技术基于多智能体的协作，通过数据自动化合成、数据筛选、数据清洗等步骤，实现SFT指令数据集的大批量自动化生产。研究表明，MindForge方法在单轮和多轮合成数据训练性能上均优于传统方法。行业指令数据的生产应混合多种来源，如教师模型、开源SFT指令数据集、预训练行业数据、企业业务数据和互联网搜索引擎数据，以平衡各种来源的优劣势。

总结而言，未来企业IT系统将朝向以大模型为核心的应用体系架构发展，大模型能力决定了系统能力上限，多Agent系统拓展大模型能力外延。实现以大模型为核心的应用系统需从需求和业务场景引领，并并进数据工程、模型训练和多智能体应用系统。高质量行业指令数据集的构建需考虑任务类型、query多样性、数据鲁棒性、回复cot等因素，并重视合成数据的幻觉问题，通过智能体系统实现自动化大规模生产。

演讲人：周华北京智源人工智能研究院智能应用负责人 AI大模型浪潮推动企业IT系统架构变革 01以AI大模型为核心的应用系统关键实现路径目录 02构建IndustryInstruction行业指令数据集 03MindForge自动化行业指令数据生产技术介绍 04总结 AI大模型浪潮推动企业IT系统架构变革 AI大模型浪潮推动企业IT系统架构变革以大模型为核心以数据为核心以服务为核心以流程为核心 •强调系统内的业务流程优化，以支持复杂企业流程为目标。•系统设计围绕流程自动化，从订单处理到客户管理的工作流全部打通。向以AI大模型为核心的应用系统架构演进以AI大模型为核心的应用系统关键实现路径以AI大模型为核心的应用系统关键实现路径（2/4）以AI大模型为核心的应用系统关键实现路径（3/4）以AI大模型为核心的应用系统关键实现路径（4/4）定义模型能力，以模型能力需求出发训练模型行业大模型能力评估体系–典型能力框架（以医疗为例） •从模型能力需求出发选择基座模型 •从模型能力需求出发构建模型训练数据集 •从模型能力需求出发指导模型训练数据是大模型行业应用成功的关键 •大模型行业应用涉及的五个方面，数据工程最重要！ •大部分行业的数据很丰富，但数据形态难以满足大模型行业应用开发要求： •结构化数据：不能直接用于模型训练或RAG向量库构建；•非结构化数据：需要使用复杂的数据转换工具，成本高昂； •数据的数量和质量决定了模型的性能：模型性能不达标，表面原因模型没有学会，深层次的原因是缺乏某类训练数据或此类数据质量不高； •需要重点从数据层面入手解决大模型行业落地的技术瓶颈； •2024年研究院一直在致力于制约解决行业应用落地最后一公里的数据问题： •行业CPT预训练数据集：IndustryCorpus1.0和IndustryCorpus2.0 •行业指令数据集：IndustryInstruction1.0 构建IndustryInstruction行业指令数据集为什么要构建行业指令数据 智源研究院9月底发布了《行业数据全景扫描》显示：当前行业数据总体存在着以下问题 数据缺失：部分行业缺乏指令数据质量参差不齐：数据杂乱，质量不均，或者缺乏数据质量的评估标准维度单一：缺乏多维数据支持（例如旅游行业，只有个别旅游攻略相关数据，无法支持行业训练）语言缺失：缺少中英文语种数据（行业中普遍存在着单语种问题）从行业的角度来看： 指令数据缺失的行业：专业性强或非技术领域，数据匮乏且单一，例如：航空航天、交通、科技、旅游、住宿餐饮； IndustryCorpus行业高质量预训练语料蕴含着丰富的高价值领域知识，进一步挖掘行业数据的潜力将带来更大的潜力；多行业多语种覆盖01 多行业：一期覆盖12个行业（热门行业与空白行业）多语种：指令数据包含中英文，弥补双语不足数据量充足02 一期总量约200w，单行业最少10w，满足行业训练需求数据质量高&&数据格式丰富03 数据质量高：合成：多种方案提升数据质量与多样性质检：Deita与RW及事实性核验确保数据质量 格式丰富：Subjective：openQA，closeqa；Objective IndustryInstruction数据合成方案使用行业名称和高质量预训练语料作为种子，使用事实性，指令复杂性，回复质量，回复偏好等方案进行数据筛选 种子来源 <行业名称>IndustryCorpus2高质量<行业预训练语料> 数据构建方案Preprocessandgeneration <预训练语料>合成指令数据；<行业名称>合成指令数据；指令数据鲁棒性提升，主客观改写 数据去除离群点 Query语义特征聚类后簇内去除离群点 Deita：指令复杂性和回复质量RWmodel（ArmoRM）：回复偏好性，评估回复质量事实性核验：评估closeqa数据的回复事实性从行业预训练语料合成指令数据使用IndustryCorpus2高质量行业数据作为种子，挖掘数据中高价值行业知识，合成CloseQA指令数据 Stage1：生成语料中可能包含的问题 输入:<行业类目>+<预训练语料>逻辑：判断<预训练语料>是否与<行业类目>是否匹配。若匹配，则生成指定数量问题；若不匹配，丢弃该数据输出：<问题列表> Stage2：根据<问题列表>和<预训练语料>生成指令数据 输入：<预训练语料>+<问题列表>逻辑：根据提供的<预训练语料>对<问题列表>生成回复输出：指令数据 生成模型：行业类目合成指令数据以<行业类目>作为种子，生成<行业子主题>和<人物描述>，使用LLM合成行业指令数据 <行业类目>合成指令数据 <行业类目>作为种子生成<行业子主题>和<人物描述><行业子主题>生成指定数量<问题列表><人物描述>与<行业类目>或<行业子主题>生成<问题列表><问题列表>使用生成模型合成行业指令数据去除远离主题的指令数据对query抽取特征，使用簇内远离主题的数据（质量有问题）指令数据去重 基于query的完全匹配去重和Minihash去重提取query的embedding，聚类并计算样本距离簇中心的cosine距离，删除cos_distance>0.3的数据数据筛选Filter 根据指令数据类型选择不同的数据筛选方案，全面提升指令数据质量，多样性。多种数据筛选方案，针对不同数据类型，选择不同方案 基于Deita的指令复杂性和回复质量筛选 基于RW模型回复偏好性数据进行筛选 基于事实性核验的数据筛选 多轮QA 基于多轮相关性的数据筛选数据筛选Filter 指令复杂性得分：C回复质量得分：QQA数据的整体质量得分：S=C*Q筛选数据原则：Q复杂具体&&A详细准确评估Response对Query的Helpful，harness，truthful，complexity等维度筛选数据原则：RW得分高的数据数据筛选Filter 多轮对话独创性的基于自回归损失的多轮次相关性进行评估单轮QA的Loss计算方式（预训练的自回归loss） CF>1：多轮QA之间相关性低CF<<1：多轮QA之间重复度过高筛选数据原则：多轮相关且不重复，选择CF小于1且大于0.5的数据 IndustryInstruction数据可视化对合成数据使用词云统计，质量分数分布分语种筛选deita和rw得分均较低的数据 MindForge自动化行业指令数据生产技术介绍 MindForge基于多智能体的行业SFT指令数据自动化技术 •MindForge行业指令数据自动化生产技术的主要步骤：数据自动化合成、数据筛选、数据清洗； •给定行业方向和字领域提示，由智能体群体协作完成SFT指令数据集的大批量自动化生产，极大减轻企业SFT数据制作的工作压力。 MindForge基于多智能体的行业SFT指令数据自动化技术使用MindForge智能体协作新方法与之前直接提示模型生成的方法相比 •单轮合成数据的训练性能： •Llama-3.2-1B上表现得最为明显，胜率分别达到70.5%和62.8%（中文和英文）。•Llama-3.1-8B上的最高输率仅为22.1%。 •多轮合成数据的训练性能： •MindForge方法胜率最高达到98.0%，最低输率仅为10%。混合多种来源生产行业指令数据 •来自能力较强的教师模型：难点是Query生成，且Response生成质量无法超过教师模型； •已有的开源SFT指令数据集：质量参差不齐，需要采取技术手段针对业务需求进行精细筛选；•基于预训练行业数据生成：Response专业性和质量有保证，整体质量取决于构造Query的质量；•基于企业业务数据生成：同基于预训练行业数据生产，但专业质量更高；•使用互联网搜索引擎数据生产：可补充其他数据的缺失，提升数据实效性，但速度慢，且数据需要严格质量过滤。行业指令数据的生产，最好混合使用上述来源，可在各种来源的优劣势之间做到平衡。总结总结 •未来企业IT系统将朝向以大模型为核心的应用体系架构发展： •大模型能力决定了系统能力上限；•多Agent系统拓展大模型能力外延；•从用户助理的视角，理解新的业务和技术特征。 •实现以大模型为核心的应用系统关键路径： •需求和业务场景引领；•数据工程、模型训练和多智能体应用系统并进。 •高质量行业指令数据集构建： •需要从任务类型，query多样性，数据鲁棒性，回复cot等角度考虑数据的制作；•重视合成数据的幻觉问题；•将制作的手工过程封装为智能体系统，实现过程重用，和自动化大规模生产；•混合多种来源生产行业指令数据。谢谢！

点击免费查看完整报告

2026AIBestIdeas社群讨论AIresearchers创业者产品经理和一二级投资人围绕2026年AI公司竞争格局AI应用与Agent形态算力与infra瓶颈以及AI在具体行业中的落地路径等关键问题展开了一次深入的讨论20260103

未知机构2026-01-03

AI大模型浪潮下的行业应用新模式和关键实现路径

你可能感兴趣

人工智能行业：新质生产力背景下，AI大模型赋能评级行业数字化转型的关键要素

计算机行业跟踪报告：“Token”中文名确定为“词元”，关注“词元经济”和AI大模型的商业化路径

【盘中宝】英特尔等巨头力推AI PC，机构称AIGC应用加持下这一市场有望量价齐升，这家企业配合供应折叠机型关键零部件并实现北美大客户新型号笔电项目量产

【风口研报·洞察】GPTs带来AI应用全面爆发，分析师称不具备底层代码能力的“大模型”公司或迎巨大打击，而“核心专业数据库”将成为未来竞争最关键点：2024年A股盈利增速怎么看

2026AIBestIdeas社群讨论AIresearchers创业者产品经理和一二级投资人围绕2026年AI公司竞争格局AI应用与Agent形态算力与infra瓶颈以及AI在具体行业中的落地路径等关键问题展开了一次深入的讨论20260103

黄永法-AI浪潮下架构师的4个关键可迁移技能及提升技巧

大模型应用端进入新时代，智能投研如何演化？经济弱复苏持续行情下，如何对风格和行业进行配置？极端情况下因子策略失效的应对措施

【风口研报·公司】AI浪潮下Chiplet等先进封测有望实现翻倍扩产，这家公司的晶圆级直写光刻设备具备不需要掩膜版、智能纠偏等优点，当前验证顺利，放量在即

1108金山办公深度解读：AI落地路径关键四问&大模型系列研究合集

保险行业保险+AI深度报告：看好丰富数据积累及应用场景驱动下，保险+AI大模型的受益机会