您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[DataFunSummit2023:大模型与AIGC峰会]:开源视角下看大规模语言模型研发中的数据工程、自动化评估及与知识图谱的结合 - 发现报告
当前位置:首页/行业研究/报告详情/

开源视角下看大规模语言模型研发中的数据工程、自动化评估及与知识图谱的结合

AI智能总结
查看更多
开源视角下看大规模语言模型研发中的数据工程、自动化评估及与知识图谱的结合

大模型研发中的数据工程、自动化评估及与知识图谱的结合 刘焕勇-360人工智能研究院-算法专家(老刘说NLP公众号作者) DataFunSummit#2023 目录CONTENT 大模型研发中的数据工程 大模型研发中的自动化评估 大模型与知识图谱的结合 总结 01 大模型研发中的数据工程 DataFunSummit#2023 什么是大模型的数据工程-以数据为中心的AI 以数据为中心的AI:模型不变,通过改进数据集质量提升模型效果 大模型的数据工程需要解决的几个关键问题: 需要什么数据? 数据从哪儿来? 数据怎么处理? 数据怎么评估? 数据怎么管理? 回顾:现有大模型基本情况 回顾:现有大模型应用场景 起底:GPT背后的预训练数据 ChatGPT数据主要来自CommonCrawl、新闻、帖子、书籍及各种网页。CommonCrawl、网页、书籍、维基百科对于训练的贡献量分别为60%、22%、16%、3%。英文维基百科全部内容包含约30亿tokens,仅占到训练数据量的3%。 起底:英文主流大模型预训练数据的构成-多语种能力 起底:英文主流大模型预训练数据的构成 大语言模型数据集 多模态大模型数据集 起底:英文主流大模型预训练数据的构成 起底:英文主流大模型预训练数据的构成 GPT-3ThePilev1WebTextCommonCrawl(C4) 起底:英文主流大模型常用预训数据-维基百科、书籍 维基百科:维基百科致力于打造包含全世界所有语言的自由的百科全书,由超三十万名志愿者组成的社区编写和维护。截至2023年3月,维基百科拥有332种语言版本,总计60,814,920条目。其中,英文版维基百科中有超过664万篇文章,拥有超4,533万个用户。 书籍:主要用于训练模型的故事讲述能力和反应能力,包括小说和非小说两大类。数据集包括ProjectGutenberg和Smashwords(TorontoBookCorpus/BookCorpus)等。ProjectGutenberg是一个拥有7万多本免费电子书的图书馆,包括世界上最伟大的文学作品,尤其是美国版权已经过期的老作品。BookCorpus以作家未�版的免费书籍为基础,这些书籍来自于世界上最大的独立电子书分销商之一的Smashwords。 起底:英文主流大模型常用预训数据-论文期刊 期刊可以从ArXiv和美国国家卫生研究院等官网获取。预印本和已发表期刊中的论文为数据集提供了坚实而严谨的基础,因为学术写作通常来说更有条理、理性和细致。 ArXiv是一个免费的分发服务和开放获取的档案,包含物理、数学、计算机科学、定量生物学、定量金融学、统计学、电气工程和系统科学以及经济学等领域的2,235,447篇学术文章。 起底:英文主流大模型常用预训数据-WebText、Commoncrawl Reddit链接代表流行内容的风向标。Reddit是一个娱乐、社交及新闻网站,注册用户可以将文字或链接在网站上发布,使它成为了一个电子布告栏系统。WebText是一个大型数据集,它的数据是从社交媒体平台Reddit所有�站链接网络中爬取的,每个链接至少有三个赞,代表了流行内容的风向标,对输�优质链接和后续文本数据具有指导作用。 Commoncrawl是2008年至今的一个网站抓取的大型数据集。CommonCrawl是一家非盈利组织,致力于为互联网研 究人员、公司和个人免费提供互联网副本,用于研究和分析,它的数据包含原始网页、元数据和文本提取,文本包含40多种语言和不同领域。重点研究实验室一般会首先选取它的纯英文过滤版(C4)作为数据集。 WebText前30个域C4前23个域名(不包括维基百科) 起底:英文主流大模型常用预训数据-ThePile及代码、论坛 ThePile数据集:一个825.18GB的英语文本数据集,用于训练大规模语言模型。ThePile由上文提到的ArXiv、WebText、Wikipedia等在内的22个不同的高质量数据集组成,包括已经建立的自然语言处理数据集和几个新引入的数据集。 除了训练大型语言模型外,ThePile还可以作为语言模型跨领域知识和泛化能力的广泛覆盖基准。 起底:中文主流大模型预训数据构成 华为盘古大模型1.1TB中文文本语料库数据组成 WeLM大模型训练语料库统计 阿里M6预训练数据集构成 InternVideo预训练过程中使用的数据集统计 起底:中文主流大模型的预训练数据构成 起底:中文主流大模型预训练数据的构成-中英对比 参考:lifearchitech.ai GPT-3VS盘古alpha与悟道2.0的训练数据来源 起底:中文主流大模型预训练数据的构成-中英语料对应 问题的提出:我们需要怎样的预训练数据 AI大模型需要高质量、大规模、多样性的数据集。 高质量 高质量数据集能够提高模型精度与可解释性,并且减少收敛到最优解的时间,减少训练时长。 信源权威可靠、内容价值观对齐、专业领域知识 规范性、完整性、准确性、一致性、时效性 大规模 《ScalingLawsforNeuralLanguageModels》中提🎧LLM模型所遵循的“伸缩法则”(scalinglaw),即独立增加训练数据量、模型参数规模或者延长模型训练时间,预训练模型的效果会越来越好。 多样性 数据丰富性能够提高模型泛化能力,过于单一的数据会非常容易让模型过于拟合训练数据。 预训练模型的数据要求 相关性:回答是否和问题相关,避免答非所问。 准确性:是否准确,事实性回答要求完全一致,开放性问答要求语义相近。 完备性:是否涵盖了所有要点、有总结、有分析、有扩展等。 连贯性:是否表达流畅、有条理、有逻辑性。 安全性:是否包含粗鲁、侮辱性等词汇。 专业性:不口水话,不啰嗦,书面用语,专业表达。 敏感性:是否涉及到政治领域、黄反、敏感事件等负面信息。 AI会话场景下的质量要求 问题的提出:以数据为中心的预训模型 更高质量、更丰富的训练数据是GPT模型成功的驱动力,除模型权重变化之外,模型架构保持相似 解决方案:领域预训模型的训练链路-以caMA为例 https://github.com/zjunlp/CaMA 解决方案:以数据为中心的大模型预训数据工程框架 以数据为中心的AI:模型不变,通过改进数据集质量提升模型效果 解决方案:以数据为中心的大模型预训数据工程-工作流拆解 解决方案:以数据为中心的大模型预训数据工程-采集、标注与评估 解决方案:以数据为中心的大模型预训数据工程 解决方案:以数据为中心的大模型预训数据工程-数据源的选取 目标:构建起大规模、多样性的数据,需要广泛收集并标准化各类语料,建立数据体系、数据来源,分开收集。 解决方案: 数据源的选取依据 数据体系是否完备 站点来源是否权威 数据规模是否大 数据实时性是否足够 下游任务是否有需求 下游技能有哪些表现差的能力 网站数据 通用网页 搜索数据 问答数据 知识图谱百科 代码推理数据 专业文献 研究报告 学术论文、期刊、书籍、文学著作 行业数据 任务评测数据集 多语种数据集 金融、法律、房地产、体育、医药、影视领域语料 解决方案:以数据为中心的大模型预训数据工程-站点过滤与噪声信息清洗 目标:语料中存在大量不干净、广告、隐私、敏感数据,需要进行剔除,保证高质量。 解决方案: 质量分档模型 基于高优语料数据,使用fasttext分类器,分为4档, 0,1,2,3:23认为是优质数据 特征使用包含title以及CEloss ...... 边缘文本剔除模型 高优语料数据,使用fasttext分类器,识别正文文本 使用不含title-ce分类器 ...... 垂直网页处理 Pattern级高优语料提取 定制化边缘文本剔除 ...... 基于规则的噪声清洗 空格、特殊符号剔除,繁简体转换 语种检测 敏感信息,如脏话、煽动性言论和其他非法内容剔除 隐私数据识别与处理(私人信息(即身份号码、电话号码、qq号码、电子邮件地址等) ... 基于模型的噪声清洗 PPL判定模型,剔除不连贯文本 ...... 解决方案:以数据为中心的大模型预训数据工程-网页分类建模 目的:网页分类建模的目的在于挖掘细粒度的网页数据,以满足不同类别数据的需求 解决方案 网页标签挖掘 LDA主题词提取 文本关键词提取 人工审核标签 下游技能迭代反馈标签 ...... 网页主题分类 预设网页类别体系,体育、历史、金融、医药 等细分领域标签 构造语料分类器,完成语料标签分类:基于BERT ...... 解决方案:以数据为中心的大模型预训数据工程-数据质量控制 目标:经过模型自动化质量评估后,可以得到质量较高的数据,但数据质量如何量化,如何给�定性的质量分? 解决方案 数据质量评分 标计算得分计算-举例:(3分*样本量+2分*样本量+1分*样本量+0分*样本量)/(总量*3)*100 人工确定质量评分标准 正文的语句通顺连贯 存在噪音标签/文本 存在边框、或者非规范文本 在空短页、投毒、堆砌、其它低质、灌水等无价值内容 ...... 数据版本控制 根据数据生成流程的各个阶段备份管理 数据各阶段信息标引 ...... 预训数据索引管理 训练数据问题反馈、定位 ...... 数据随机抽样 根据数据源抽样送评 人工质量评分 按数据源进行质量分高低排序 ...... 解决方案:以数据为中心的大模型预训数据工程-预训数据采样 《DoReMi:OptimizingDataMixturesSpeedsUpLanguageModelPretraining》 实现思想 先初始化数据分布,训练一个小参数模型 使用群体分布稳健优化(GroupDRO)对领域进行训练,产生领域加权(混合比例)的小型代理模型。 用领域权重对数据集进行重新取样,训练一个更大的、全尺寸的模型。 参考:https://arxiv.org/abs/2305.10429 解决方案:以数据为中心的大模型预训数据工程-微调数据生成 基于人工标注 设定SFT数据标签体系,建立标签体系大类、子类。 构造和撰写一些prompt并且写�对应的结果-forSFT任务 针对给定的prompt、模型给�的多个结果,标注结果的好坏排序-forRewardModel 基于大模型进行数据蒸馏 基于大模型self-instruct生成数据 基于chatgpt进行结果好坏标注+人工审核 解决方案:以数据为中心的大模型预训数据工程-微调数据清洗 基于规则的清洗 过滤敏感词规则 过滤无效输入输� 关键词替换规则 特殊逻辑规则 基于模型的多样性控制 基于语义相似度模型的指令去重 基于主题控制的指令多样化 指令数据复杂化 开放数据问题:预训数据是否会不够? 《Willwerunoutofdata?AnanalysisofthelimitsofscalingdatasetsinMachineLearning》 语言数据将于2030~2040年耗尽,其中能训练�更好性能的高质量语言数据将于2026年耗尽。此外,视觉数据将于2030~2060年耗尽。 低质量语言数据集数据或将于2030年耗尽高质量语言数据集数据或将于2026年耗尽 图像数据存量为8.11e12~2.3e13图像数据集数据趋势或将于2030~2060年耗尽 02 大模型研发中的自动化评估 DataFunSummit#2023 问题的提出:如何进行模型性能的自动化评分 基于人工业务评估 人工通过列举相关测试样本,建立评估维度,完成多维度打分 基于chatgpt打分 利用chatgpt的专业能力,充当