您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[谷歌]:语言模型合成数据的最佳实践和经验教训 - 发现报告
当前位置:首页/其他报告/报告详情/

语言模型合成数据的最佳实践和经验教训

2024-04-10-谷歌C***
语言模型合成数据的最佳实践和经验教训

arXiv:2404.07503v1[cs.CL]2024年4月11日 2024-04-10 语言模型合成数据的最佳实践和经验教训 刘瑞博1,JerryWei1、刘芳雨1,成磊四2,张彦哲3,饶金盟1,StevenZheng1、彭代义1、杨迪艺2,周丹尼1安德鲁·M·戴1 1GoogleDeepMind,2斯坦福大学,3佐治亚理工学院 人工智能模型的成功依赖于大型、多样化和高质量数据集的可用性,由于数据稀缺、隐私问题和高成本,这些数据集可能具有挑战性。通过生成模仿现实世界模式的人工数据,合成数据已成为一种有前途的解决方案。本文概述了合成数据研究,讨论了其应用,挑战和未来方向。我们提供现有技术的经验证据来证明其有效性,并强调确保其真实性,保真度和无偏性的重要性。我们强调需要负责任地使用合成数据来构建更强大,更具包容性和可信赖的语言模型。 1.Introduction 图1Image|生成的一个合成图像(Saharia等人。,2022a)v2.0,提示包括以下描述:“在机器人工厂中,人形机器人在装配线上协作,以设计,制造,测试和组装新机器人。他们制造的新机器人看起来与创造它们的机器人工人相似。“我们还从美学考虑添加了一些风格控制文本。 对应作者:ruiboliu@google.com ©2024GoogleDeepMind.版权所有 人工智能(AI)技术的快速发展导致了它们在众多领域的广泛采用,从助理代理(例如,ACT-1,从熟练的AI1)和软件开发(例如,来自认知实验室的Devin2)医疗保健(Sighal等人。,2022)和金融(郑等人。,2022年)。然而,人工智能模型的成功在很大程度上依赖于用于培训和评估的大型、多样化和高质量数据集的可用性。由于数据稀缺(Babbar和Schölopf,2019),隐私问题(Abay等人。,2019年),以及数据收集和注释的绝对成本(Gilardi等人。,2023b)。悲观主义者预测,我们将在 2050年耗尽新的文本数据,并在2060年耗尽图像数据(Villalobos等人。,2022年)。 合成数据已成为解决这些挑战的有希望的解决方案(Nioleo,2021)。合成数据是指模拟现实世界数据的特征和模式的人工生成数据,但通过算法创建(Saxto等人。,2019),生成模型(Borisov等人。,2022;孟等人。,2022),甚至模拟(Li等人。,2023c;Vezhevets等人。,2023),而不是由人类直接创造。通过利用合成数据,我们不仅可以克服现实世界数据的局限性,还可以释放开发更健壮、可靠和公平的人工智能模型的潜力(L等人。,2023年;Lcii,2021年)。 合成数据的众多好处之一是可以大规模生成,为AI模型提供丰富的训练和测试数据。在现实世界数据稀缺或难以获得的领域(例如Procedre,涵盖所有条件的天气数据(Lam等人。,2023年;李等人 。,2023a))。其次,可以根据特定要求定制合成数据,例如通过引入受控变化(e。Procedre,多语言学习中的低资源语言权重(Przystpa和Abd-Mageed,2019))。对数据特性的这种级别的控制可以提高模型性能和泛化。第三,合成数据可以通过创建不包含敏感个人信息的匿名或去识别数据集 ,来帮助减轻隐私问题(ElEmam等人。,2020;豪等人。,2017)。这在医疗保健等领域至关重要,在这些领域,患者隐私至关重要(DahmeadCoo,2019;Wei等人。,2019年)。 尽管有希望,合成数据也提出了需要解决的挑战。其中之一是确保合成数据的真实性和保真度(Hesel等人。,2017;伍德等人。,2021),因为在虚假、幻觉或有偏见的合成数据上训练的模型可能无法推广到现实世界的场景(Garera等人。,2020;VaBregel等人。,2023年)。研究人员必须开发复杂的生成模型和评估指标,以创建能够准确反映现实数据中复杂模式和关系的综合数据。另一个挑战是,如果不经过精心设计和验证,合成数据可能会放大偏见或引入新的偏见(Barbierato等人。,2022;古普塔等人。,2021年)。我们认为,必须进行严格的测试和公平性评估,以减轻这些风险 。 在本文中,我们跟踪合成数据研究的当前状态,并讨论当前的最佳实践和经验教训。本文的其余部分组织如下。第2节概述了合成数据生成技术及其在模型训练中的应用,并提供了案例研究和经验证据。第3节 讨论了综合数据在评估中的有用性。第4节讨论了合成数据的挑战和局限性,在第5节中,我们概述了潜在的解决方案和未来的研究方向。 1ACT-1: 2Devin: 2.训练中的合成数据 通过模仿从现实世界收集的真实数据而生成的合成数据已被证明是真实数据的有效且相对低成本的替代方案。本节探讨了利用合成训练数据的几个值得注意的领域。 2.1.推理 数学。语言模型(LM)的数学推理的最新进展导致了各种方法的发展,以提高数学相关任务的性能。一个方法是对数学目标训练前数据进行训练,例如Mierva(Lewowycz等人。,2022),Llemma(Azerbayev等人 。,2023)和DeepSeeMath(Shao等人。,2024)。另一种主流方法是生成合成问题和答案,以模仿目标基准的训练或验证集。例如,WizardMath(Lo等人。,2023a)利用一系列操作来增加使用GPT-3.5的问题和答案的复杂性,而MetaMath(Y等人。,2023)通过以不同的方式重写它们来引导MATH和GSM8K中的问题,例如语义改写,自我验证和向后推理。GAIR-Abel(Cheretal.,2023)发现,增强答案的格式对最终表现至关重要,答案首先是对问题的解释,然后是逐步的解决方案,显示出比香草格式更好的表现。Xwi-Math(Li等人,2024)进一步将合成SFT数据放大到一百万个例子,发现LLaMA-27B模型(Tovro等人。,2023)仍然可以从数据扩展中受益。MMIQC(Li和Yao,2024)组成了一组数据集,这些数据集将SFT样式数据(通过问答改写或直接从MetaMath中获取)与高质量数学预训练数据的子集相融合,例如OpeWebMath(Paster等人。,2023年)。 扩大合成数学数据的生成是一个简单的过程,但确保生成的数学的正确性仍然是从业者面临的重大挑战。AlphaGeome-try(Trih等人,2024)是最近通过使用1亿个合成数据点训练神经模型来解决这一问题的尝试。该模型提出了解决方案,并指导符号推导引擎在解决复杂几何问题时验证每个分支的正确性。通过将合成数据的力量与严格的验证过程相结合,AlphaGeometry实现了与人类奥林匹克金牌得主相媲美的解决问题的能力,证明了这种方法在处理复杂的数学推理任务方面的潜力。 代码。与数学不同,用于代码推理的合成数据可以自然地将执行结果与结构化代码组合,因为正确代码的一个要求是可执行的。在编码增强模型中,CodeRL(Le等人。,2022)提出了一种演员-批评方法,用合成代码样本上的反馈信号来改进预训练的语言模型。Halptzo等人。(2022)提出了一种自我改进策略,其中模型生成 自己的合成拼图-解决方案对。然后,在用于微调语言模型之前,由真正的解释器对其进行验证和过滤。Shypla等人。(2023)进一步提出了一个框架,利用模拟环境和适应策略,如自我改进合成数据生成和CoT提示代码优化。Yagetal.(2024)开发了IterCode,这是一个旨在增强强化学习环境中交互式代码生成的框架,其中代码用作动作,执行反馈用作观察。Reflexio(Shietal.,2024)采用外部或内部模拟的语言反馈信号来提高语言模型的代码推理能力。关于合成SFT数据,羊驼代码包括通过应用SELF-INSTRUCT自动生成的20K代码指令的数据集(Wag等人。,2022a)跨21个种子任务进行ChatGPT。WizardCoder(Loetal.,2023b)引入代码Evol-Istrct以启发式方式指导ChatGPT。 同时,Magicoder(Wei等,2023c)开发了OSS-INSTRUCT,通过开源代码片段生成75K个不同的合成指令样本。 其他推理任务。合成数据在其他推理任务中也带来了令人印象深刻的表现。例如,魏等人。(2023a)通过用任意符号替换自然语言标签来增强现有的自然语言数据集,生成超过500个合成示例。使用这些合成数据进行监督微调显着提高了在看不见的上下文学习和算法推理任务中的模型性能。STaR(Zelima等人,2022 )生成合成的思想链理论,并过滤掉那些导致错误答案的理论,以完善语言模型以改善其推理。在物理推理领域,心灵之眼(Li等人。,2022)采用一种新颖的方法,通过使用合成的“文本描述渲染代码”数据来训练文本到代码模型。这使模型能够将文本问题转换为渲染代码,然后在物理引擎中执行(i.Procedres.,DeepMidMJoCo(Todorov等人。,2012))。渲染结果被注入到上下文中,即使是配备了Mid'sEye的小型语 言模型,也可以实现与100倍大的模型相当的性能。→ 2.2.工具使用和规划 学习工具-通过合成轨迹使用。合成数据也是一种强大的方法,使LM能够通过模拟轨迹学习工具使用能力,因为收集真实世界的人类工具使用数据可能很耗时,并且对工具的调用的实际分布可能会出现偏差。LaMDA(Thoppila等人,2022),例如,不仅在网络文档上进行了培训,还在众众员工和模型本身之间的交互数据上进行了 培训,合成数据用对适当工具的调用进行了注释。这种训练过程使LaMDA能够开发出使用计算器进行算术运算 ,使用搜索引擎进行实时信息搜索以及使用机器翻译进行翻译的能力。同样,Toolformer(Schic等人,,2024)通过对模板生成的数据进行训练,学会决定调用哪些API以及传递哪些参数,而Galactica(Taylor等人。,2022)将API调用数据注入预训练混合物。ToolAlpaca(Tag等人,2023)是一种新颖的框架,旨在通过构建多代理模拟环境并让代理迭代地选择和使用工具来自动生成多样化的工具使用语料库。这些示例证明了合成轨迹在使LM能够获得工具使用能力并增强其跨各个领域的推理能力方面的潜力。 学习在合成环境中计划。自主机器智能(LeC,2022)中代理的一个重要特征是计划-能够将复杂任务分解为子任务并以最佳奖励方式完成子任务(Kambhampati等人。,2024)。合成数据在这里可以是有价值的工具,因为它可以用作从模拟器收集的反馈信号(Par等人。,2023),并在此基础上学习可以使代理人 意识到负担能力(Ah等人。,2022;梁等人。,2022年)。例如,《内心独白》(Hag等人。,2022)利用由模拟环境生成的自然语言表单反馈来教导基于LLM的机器人规划。他们发现,这样的反馈可以显着提高模拟和现实领域的高级教学完成度。组成大量现实的计划任务(例如Procedre,“重新排列桌子上的对象以匹配给定的场景。“),VIMA(Jiag等人。,2022)创建了一个名为VIMA-Bech的多模态模拟环境,该环境支持可扩展的对象和纹理集合。在Miecraft游戏中,Voyager(Wag等人。,2023)部署了许多基于GPT-4的代理与合成环境进行交互,并发现代理可以在合成反馈的帮助下更快地解锁新技能并更有效地完成计划。 2.3.多模态 从视觉到文本的反向渲染。视觉语言对齐数据侧重于准确地将视觉输入接地到LLM(通常通过视觉编码器 )。自CLIP以来,网络抓取的图像标题对一直是过去几年中最受欢迎的MM对齐数据(Radford等人。, 2021年)和阿利根(贾等人。,2021年)。但是,网络抓取的图像-文本对通常很嘈杂,并且仅具有粗粒度的对应关系,不足以使语言中的图像细节接地。在诸如文档、屏幕、图和图表的领域中,可以从利用图像渲染引擎构建的