您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[阿里巴巴]:2024大模型训练数据白皮书 - 发现报告
当前位置:首页/行业研究/报告详情/

2024大模型训练数据白皮书

信息技术2024-05-28-阿里巴巴嗯***
AI智能总结
查看更多
2024大模型训练数据白皮书

LARGELANGUAGEMODEL'STRAININGDATA WHITEPAPER 大模型训练数据白皮书 专家委员会 安筱鹏阿里云智能副总裁 袁媛阿里研究院执行副院长 宋志刚数字中国研究院(福建)院长 编写组主要成员 傅宏宇王峥 赵志远 郑达真 张荣陈岳峰 李天宇 徐强 编写单位 阿里巴巴集团 数字中国研究院(福建)阿里云智能集团 欢迎关注“阿里研究院”公众号 关于我们 阿里研究院是阿里巴巴集团的内设智库机构,多年来扎根于阿里巴巴丰富的数字科技商业生态,依托前沿的产业实践和大量的创新案例,围绕集团“用户为先,AI驱动”的战略重心,聚焦于科技创新、数据和算法治理等领域的研究。 联系我们 aliresearch2023@service.alibaba.com 大模型训练数据白皮书 目录 CONTENTS 01 02 03 训练数据对大模型发展的重要性02 模型训练所需的数据类型03 2.1训练大语言模型的数据03 2.2训练多模态模型的数据04 2.3训练数据的常见疑问和误解04 2.3.1大模型训练并不依赖用户个人信息04 2.3.2中文语料短缺不是制约我国大模型发展的重要因素05 科学理解高质量数据的含义与作用06 3.1高质量数据的重要性06 3.2高质量数据的标准07 3.2.1高质量数据类型的三重不确定性07 3.2.2同类数据的评估标准并不完全一致08 04 05 06 合成数据作为解决训练数据供给不足的新方案09 4.1训练数据供给不足带来的思考09 4.2合成数据的定义10 4.3合成数据的必要性10 4.4合成数据的生成方法及分类11 4.5合成数据在模型训练中的作用12 4.5.1预训练语料的新物种12 4.5.2提升对齐语料获取效率的加速器13 4.6解决训练数据供给不足的新方案14 4.7在发展中治理的合成数据16 对大模型训练数据治理的思考17 5.1大模型对训练数据的使用特点17 5.2大模型训练数据合规的治理之智18 政府与社会力量协同的训练数据生态19 6.1美国的现状19 6.2中国的现状21 07 阿里巴巴集团在大模型训练与应用的探索23 08 以更开放和务实的方式解决高质量训练数据供给24 自《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》发布以来,我国数据要素建设不断深入,在国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024-2026年)》进一步明确“建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练”。通过数据要素建设推动人工智能大模型发展,可以有效解决我国人工智能,特别是大模型研发所面临的数据瓶颈,进一步发挥大模型对于世界知识数据的汇集和处理能力,创造更大的生产力,助力我国从数据经济走向智能经济新发展模式。 大模型是数据要素价值释放的最短路径,通过理解其训练所使用的数据类型,可以更好理解大模型发挥价值的内在机制,破解对训练数据常见的迷思和误解。而促进高质量训练数据的建设,需要理解人工智能对数据的实际需求,科学评价数据的规模和质量;需要综合利用政府、企业、社会等各方资源,构建共享、共创、共赢的合作生态,以更务实、多元、开放的方式解决供给不足的问题;还需要为技术发展预留空间,构建更顺应模型发展的数据治理体系,相信随着技术的日益成熟,相应的商业模式和制度设计也都会逐步完善。 01 01 训练数据对大模型发展的重要性 业界认为,算法、算力与数据,是支撑大模型发展的三大基石。更高质量、更丰富的数据是以GPT为例的生成式人工智能大模型成功的驱动力。GPT模型架构从第1代到第4代均较为相似,而用来训练数据的数据规模和质量却有很大的不同。GPT-1是由4.8G未过滤原始数据训练,GPT-2是由经人类过滤后的40G数据训练,GPT-3是由从45T原始数据中过滤的570G数据训练,而chatGPT/GPT-4则是在该基础上又加入了高质量人类标注。以吴恩达(AndrewNg)为代表的学者观点认为,人工智能是以数据为中心的,而不是以模型为中心。“有标注的高质量数据才能释放人工智能的价值,如果业界将更多精力放在数据质量上,人工智能的发展会更快”。 02 模型训练所需的数据类型 数据作为大模型训练的基础,它提供了大模型所必需的知识和信息。区别于以往搜索系统、个性化推荐等所需的大量用户行为和偏好数据,随着技术的演进,大模型所需的数据是对知识性内容有强需求,是一种新的类型。 2.1训练大语言模型的数据 大模型所需要的数据根据训练的阶段有所不同。以ChatGPT为代表的大语言模型(LLM)为例,其训练过程分为预训练(Pre-training)、监督微调(SFT)、基于人类反馈的强化学习(RLHF)三个阶段,后两部分又统称为 “对齐”(Alignment)阶段。 第一阶段预训练所需的语料是各种类型的世界知识,包括网页、书籍、新闻、论文期刊、对话文本、代码等形式,通过大量学习世界知识,构建模型的基础能力,理解客观世界的规律,该阶段的语料特征可以概括为“广”。 第二阶段SFT,通过标注人员设计问答,编写正确答案,将例题投喂给模型,并希望模型在没有见过的任务中“举一反三”,提升泛化能力。第三阶段RLHF,训练目标是让模型的价值观与人类对齐,需要人类对模型的回答进行打分、排序,让模型知道"怎么说更好"。第二和第三阶段的数据质量要求较高,需要来自人类的高质量反馈,语料特征可以概括为“齐”。 如果将模型微调后部署应用于特定的场景形成行业大模型(如工业、金融、医疗等),则需要满足该场景专业需求的特定领域知识做预训练和对齐,需要具备一定专业深度,如行业数据库、专业文档、专业网站等,这部分的语料特征是“专”。 2.2训练多模态模型的数据 大语言模型迅速发展的同时,Transformer开始迁移到图像、视频和语音等其他模态数据领域,并与大语言模型融合,形成多模态大模型。多模态模型模拟人类大脑处理信息的方式,把各种感知模态结合起来,以更全面、综合的方式理解和生成信息,最终实现更丰富的任务和应用。从以Mid-journey和Sora为例的多模态大模型看,在训练阶段需要大量图像-文本对、视频-文本对等有标注数据集进行训练。图像-文本对是包含一张图像和一段描述该图像内容的文本的数据,让模型学习组成图像的像素之间、文字与图像的关联。视频-文本对包括一个短视频和一段描述视频中发生事件的文本,让模型不仅学习单个画面,还需要理解视频中的时间序列和动态变化。 2.3训练数据的常见疑问和误解 2.3.1大模型训练并不依赖用户个人信息 人工智能经历了从有监督学习到无监督学习的发展阶段,神经网络等技术推动了数据驱动的应用模式。传统的决策类人工智能在需求侧通过学习和分析海量的用户行为数据,判断用户的偏好和需求。在供给侧通过学习内容的特征,借助推荐、排序等机制实现需求和内容的匹配,并根据用户的行为反馈进行优化,提高算法的准确性。以个性化搜索为例,以大量的用户使用记录、用户画像、内容画像等原始数据为基础,提炼出客群和内容标签等不同维 度的信息,进而抽象出特征向量,用向量的空间距离计算用户和内容的相似度,通过匹配与排名进行个性化的搜索结果召回。基于上述特点,此类决策式人工智能技术在需求侧需要更多用户数据,在供给侧依赖更为全面的内容特征。 与以前的决策类人工智能相比,以大模型为代表的生成式人工智能的技术特征有明显差异。大模型是模拟人类的思维活动方式生成人类可以理解和使用的内容,而训练数据也是基于世界知识,对语料库等知识性内容有强烈需求,因此大模型训练阶段不依赖个人信息等原始数据。此外,为保证生成内容与人类价值观对齐,业界往往利用强化学习,通过纳入人工标注等机制优化表达,使模型生成内容更接近于人类认知。因此大模型对于用户数据并不依赖,而对专业化、高质量语料的知识性内容依赖大。由此看出,随着技术的演进,对训练数据的需求类型也有所不同。 然而,有很多人对此仍存在误解。根据第三方专业机构测评显示,超过60%的受访者误选了“盗取、泄露个人隐私数据的安全风险”作为大模型的最主要风险点。与一般看法相反,过量的个人数据会负面影响大模型的能力,而过于个性化的应用也将增加大模型的运算负担。对此,OpenAI负责人SamAltman表示,ChatGPT不需要用户的个人数据,用户可以选择删除其与ChatGPT的交互历史;类似的,我国目前主流大模型在提供用户隐私保护的基础上,并不过度收集和使用用户个人信息,并允许用户控制和删除其与大模型交互的对话和提供的内容。当然,在大模型的推理阶段,如果用户恶意诱导,尽管有相应的模型安全机制,仍不能完全避免个人信息泄露的问题。但可以明确的是,大模型在训练阶段并不依赖个人信息。 2.3.2中文语料短缺不是制约我国大模型发展的重要因素 谈到中文大模型,一个普遍关注的问题是,中文语料和英文语料在互联网中的占比存在显著差异:在全球网站中,英文占59.8%,而中文仅占1.3%,那中文语料供给短缺是否是制约我国大模型发展的关键要素呢?在实践中发现,规模并不是决定性影响因素。一是世界知识的积累有的属于客观事实,用英文或中文表达,其原理是一致的。或者说,在机器翻译质量有保障的前提下,可以弥补这部分中文语料的缺少。二是在训练技术上引入新方法也可以弥补语料供给不足的问题。例如通过合理安排不同语言类型的训练顺序,也能让模型学习到供给相对较少语言的丰富特征。 然而有一种类型的中文语料是极为重要且存在短缺的-中式价值观类语料。因为模型为了更好地理解客观世界和掌握规律,需要学习大量来自知识和价值观层的数据,它们更多受到人类主观意志的影响。而大模型是概率分布模型,其使用的数据来源分布将使得模型具备与之相似的人类意志。所以,训练中加入更多代表中式价值观的语料,有助于大模型更好地理解和反映中文使用者的文化背景和价值取向,从而在全球化的背景下保持文化的多样性和独特性。而且此类语料短缺的问题也没有办法通过机器翻译弥补,因为即使翻译质量有保障,仍会引入源语言的偏见,体现的仍是源语言的价值观。总体来看,文言文、古汉语、电子书籍等反映优秀传统文化的内容,以及主流媒体发布的能反映本土价值观的内容,都可视为高质量具有中式价值观的语料。但目前看,与语料相关的各环节: 从积累机制、数字化(比如我国古籍数字化率不到30%),到开放共享与开发利用,及训练过程中机器算法与编码系统的建设,都仍需大量持续投入精力。可见,中文语料“量”的短缺尚可有解决方案,但中式价值观类的语料短缺,则会成为制约我国大模型发展的短板。 03 科学理解高质量数据的含义与作用 在生成式人工智能时代,模型训练的成功与否与所依赖的数据质量息息相关。模型的能力很大程度上可以反映出其训练数据的质量,这也无疑凸显了高质量数据在大模型训练和应用中不可替代的重要性。 3.1高质量数据的重要性 由于高质量数据可以更好地模拟客观世界,将其作为训练数据可以增强模型能力。从技术层面看,通常用损失函数来量化模型预测输出与实际目标之间的不匹配程度。能更好模拟客观世界的高质量数据,可以使模型预测的概率分布尽可能逼近实际数据的真实分布,通过优化算法调整模型参数,让模型在训练集上的损失函数最小。从模型能力表现看,一是高质量数据可以提升模型的准确性和稳定性。首先,这些数据通常包含更准确和丰富的信息,有助于模型更好地理解数据的内在结构,掌握世界规律,提升产出的精准性。其次,数据清洗是提高数据质量的重要环节,包括去重、删除个信隐私内容、纠正错误、填补缺失值等,经过清洗的数据可以提升训练阶段的稳定性。二是高质量数据具有多样性,可以降低模型对特定数据集的依赖,提升鲁棒性和泛化能力。一方面高质量数据通过对现有不同来源的数据加以混合,调试配比,提升模型执行下游任务的泛化能力。另一方面可以利用数据增强等手段有效提升多样性,即通过对现有数据进行变换或扩充,如旋转、缩放、亮度调整等,生成更多的训练样本,增加训练数据代表性和多样性。 然