这个模型有一个重要突破点:合成数据!1、在模型alignment,98%的用到的数据是合成数据(supervisedfine-tuningandpreferencefine-tuning)。 这就厉害了。 这表明哪怕几乎全是合成数据,也可以做大模型的微调和【西部郑宏达】英伟达在昨天6月14日发布了名字叫Nemotron-4340B的系列大语言模型,并公布了技术报告。 这个模型有一个重要突破点:合成数据!1、在模型alignment,98%的用到的数据是合成数据(supervisedfine-tuningandpreferencefine-tuning)。 这就厉害了。 这表明哪怕几乎全是合成数据,也可以做大模型的微调和对齐。2、也可以用这个模型来生产合成数据,那么在金融、医疗、教育这些领域的应用将会打开。(合规合法拿到这些领域的数据不容易,现在好了,不用拿了,直接用合成数据了)。 所谓数据优势,可能在LLM模型领域不重要了。