您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:人工智能第一团队民生计算机从英伟达最新大模型梳理合成数据的发展现状 - 发现报告
当前位置:首页/会议纪要/报告详情/

人工智能第一团队民生计算机从英伟达最新大模型梳理合成数据的发展现状

2024-06-15未知机构米***
人工智能第一团队民生计算机从英伟达最新大模型梳理合成数据的发展现状

2)合成数据训练是否能够对现有训练语料体系产生冲击? 论文仅证明了在对齐领域合成数据质量超过真实数【人工智能第一团队|民生计算机】从英伟达最新大模型梳理合成数据的发展现状今日,英伟达发布开源大模型Nemotron-4340B,通过98%合成数据实现在文本单模态与GPT4相媲美,通过其论文和阿里研究院的论文我们重点提炼两个 问题:1)合成数据的质量是否能够媲美真实数据?2)合成数据训练是否能够对现有训练语料体系产生冲击? 论文仅证明了在对齐领域合成数据质量超过真实数据,对于现有训练语料体系冲击有限,但论文认为合成数据前景光明大模型的训练流程主要为预训练→微调→对齐,对于数据的需求量阶梯式下降,阿里研究院也明确提出合成数据在预训练领域目前占比不高但潜力巨大。 英伟达该模型在预训练阶段使用9TTokens数据,而对齐阶段仅使用1000K(98%为合成数据)数据。 合成数据用于对齐的方法已经较为成熟,除了英伟达之外还有如rDPO(ICLR2024,Github已开源)论文链接:英伟达预训练数据梳理:英语自然语言(70%):由不同来源和领域的精选文档组成,包括网页文档、新闻文章、科学论文、书籍等多语种自然语言(15%):包含53种自然语言,由单语语料库和平行语料库中的文档构成。 代码(15%):包含43种编程语言。 免责声明:基于公开资料信息整理,可能存在翻译错误、信息滞后或更新不及时、不全面的风险;任何情况下,不构成投资建议。 联系人:民生计算机吕伟/白青瑞