您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[阿里巴巴]:2024大模型训练数据白皮书 - 发现报告

2024大模型训练数据白皮书

信息技术2024-05-27-阿里巴巴嗯***
AI智能总结
查看更多
2024大模型训练数据白皮书

LARGE LANGUAGEMODEL'S TRAINING DATAWHITE PAPER 专家委员会 安筱鹏 阿里云智能副总裁袁媛 阿里研究院执行副院长宋志刚 数字中国研究院 ( 福建 ) 院长 傅宏宇王峥赵志远郑达真张荣陈岳峰李天宇徐强 编写单位 阿里巴巴集团数字中国研究院(福建)阿里云智能集团 关于我们 阿里研究院是阿里巴巴集团的内设智库机构,多年来扎根于阿里巴巴丰富的数字科技商业生态,依托前沿的产业实践和大量的创新案例,围绕集团“用户为先,AI驱动”的战略重心,聚焦于科技创新、数据和算法治理等领域的研究。 联系我们 训练数据对大模型发展的重要性..........................................................................0201 模型训练所需的数据类型.....................................................................................0302 2.1训练大语言模型的数据..................................................................................032.2训练多模态模型的数据..................................................................................042.3训练数据的常见疑问和误解...........................................................................042.3.1大模型训练并不依赖用户个人信息......................................................042.3.2中文语料短缺不是制约我国大模型发展的重要因素.............................05 科学理解高质量数据的含义与作用......................................................................0603 3.1高质量数据的重要性......................................................................................063.2高质量数据的标准..........................................................................................073.2.1高质量数据类型的三重不确定性..........................................................073.2.2同类数据的评估标准并不完全一致......................................................08 4.1训练数据供给不足带来的思考........................................................................094.2合成数据的定义.............................................................................................104.3合成数据的必要性..........................................................................................104.4合成数据的生成方法及分类...........................................................................114.5合成数据在模型训练中的作用........................................................................124.5.1预训练语料的新物种............................................................................124.5.2提升对齐语料获取效率的加速器..........................................................134.6解决训练数据供给不足的新方案....................................................................144.7在发展中治理的合成数据...............................................................................16 对大模型训练数据治理的思考..............................................................................1705 5.1大模型对训练数据的使用特点........................................................................175.2大模型训练数据合规的治理之智....................................................................18 政府与社会力量协同的训练数据生态...................................................................1906 6.1美国的现状....................................................................................................196.2中国的现状....................................................................................................21 阿里巴巴集团在大模型训练与应用的探索...................................................................2307 以更开放和务实的方式解决高质量训练数据供给.................................................2408 自《中共中央国务院关于构建数据基础制度更好发挥数据要素作用的意见》发布以来,我国数据要素建设不断深入,在国家数据局等17部门联合印发的《“数据要素×”三年行动计划(2024 - 2026年)》进一步明确“建设高质量语料库和基础科学数据集,支持开展人工智能大模型开发和训练”。通过数据要素建设推动人工智能大模型发展,可以有效解决我国人工智能,特别是大模型研发所面临的数据瓶颈,进一步发挥大模型对于世界知识数据的汇集和处理能力,创造更大的生产力,助力我国从数据经济走向智能经济新发展模式。 大模型是数据要素价值释放的最短路径,通过理解其训练所使用的数据类型,可以更好理解大模型发挥价值的内在机制,破解对训练数据常见的迷思和误解。而促进高质量训练数据的建设,需要理解人工智能对数据的实际需求,科学评价数据的规模和质量;需要综合利用政府、企业、社会等各方资源,构建共享、共创、共赢的合作生态,以更务实、多元、开放的方式解决供给不足的问题;还需要为技术发展预留空间,构建更顺应模型发展的数据治理体系,相信随着技术的日益成熟,相应的商业模式和制度设计也都会逐步完善。 01 训练数据对大模型发展的重要性 业界认为,算法、算力与数据,是支撑大模型发展的三大基石。更高质量、更丰富的数据是以GPT为例的生成式人工智能大模型成功的驱动力。GPT模型架构从第1代到第4代均较为相似,而用来训练数据的数据规模和质量却有很大的不同。GPT-1是由4.8G未过滤原始数据训练,GPT-2是由经人类过滤后的40G数据训练,GPT-3是由从45T原始数据中过滤的570G数据训练,而chatGPT/GPT-4则是在该基础上又加入了高质量人类标注。以吴恩达(Andrew Ng)为代表的学者观点认为,人工智能是以数据为中心的,而不是以模型为中心。“有标注的高质量数据才能释放人工智能的价值,如果业界将更多精力放在数据质量上,人工智能的发展会更快”。 02 模型训练所需的数据类型 数据作为大模型训练的基础,它提供了大模型所必需的知识和信息。区别于以往搜索系统、个性化推荐等所需的大量用户行为和偏好数据,随着技术的演进,大模型所需的数据是对知识性内容有强需求,是一种新的类型。 2.1训练大语言模型的数据 大模型所需要的数据根据训练的阶段有所不同。以ChatGPT为代表的大语言模型(LLM)为例,其训练过程分为预训练(Pre-training)、监督微调(SFT)、基于人类反馈的强化学习(RLHF)三个阶段,后两部分又统称为 “对齐”(Alignment)阶段。 第一阶段预训练所需的语料是各种类型的世界知识,包括网页、书籍、新闻、论文期刊、对话文本、代码等形式,通过大量学习世界知识,构建模型的基础能力,理解客观世界的规律,该阶段的语料特征可以概括为“广”。 第二阶段SFT,通过标注人员设计问答,编写正确答案,将例题投喂给模型,并希望模型在没有见过的任务中“举一反三”,提升泛化能力。第三阶段RLHF,训练目标是让模型的价值观与人类对齐,需要人类对模型的回答进行打分、排序,让模型知道"怎么说更好"。第二和第三阶段的数据质量要求较高,需要来自人类的高质量反馈,语料特征可以概括为“齐”。 如果将模型微调后部署应用于特定的场景形成行业大模型(如工业、金融、医疗等),则需要满足该场景专业需求的特定领域知识做预训练和对齐,需要具备一定专业深度,如行业数据库、专业文档、专业网站等,这部分的语料特征是“专”。 2.2训练多模态模型的数据 大语言模型迅速发展的同时,Transformer开始迁移到图像、视频和语音等其他模态数据领域,并与大语言模型融合,形成多模态大模型。多模态模型模拟人类大脑处理信息的方式,把各种感知模态结合起来,以更全面、综合的方式理解和生成信息,最终实现更丰富的任务和应用。从以Mid-journey和Sora为例的多模态大模型看,在训练阶段需要大量图像-文本对、视频-文本对等有标注数据集进行训练。图像-文本对是包含一张图像和一段描述该图像内容的文本的数据,让模型学习组成图像的像素之间、文字与图像的关联。视频-文本对包括一个短视频和一段描述视频中发生事件的文本,让模型不仅学习单个画面,还需要理解视频中的时间序列和动态变化。 2.3训练数据的常见疑问和误解 2.3.1大模型训练并不依赖用户个人信息 人工智能经历了从有监督学习到无监督学习的发展阶段,神经网络等技术推动了数据驱动的应用模式。传统的决策类人工智能在需求侧通过学习和分析海量的用户行为数据,判断用户的偏好和需求。在供给侧通过学习内容的特征,借助推荐、排序等机制实现需求和内容的匹配,并根据用户的行为反馈进行优化,提高算法的准确性。以个性化搜索为例,以大量的用户使用记录、用户画像、内容画像等原始数据为基础,提炼出客群和内容标签等不同维 度的信息,进而抽象出特征向量,用向量的空间距离计算用户和内容的相似度,通过匹配与排名进行个性化的搜索结果