您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国盛证券]:通信行业Dolly2.0发布:大模型开发加速器 - 发现报告
当前位置:首页/行业研究/报告详情/

通信行业Dolly2.0发布:大模型开发加速器

信息技术2023-04-15国盛证券花***
AI智能总结
查看更多
通信行业Dolly2.0发布:大模型开发加速器

事件:4月12日,大数据分析公司Databricks发布经过指令数据集调试的大语言模型(LLM)Dolly2.0,宣布正开源其代码、数据集和模型参数(120亿个),并开放商用。 高质量指令数据集,复现ChatGPT的关键一步。ChatGPT表现惊艳,复现它一时间成AIGC“兵家必争之地”。虽然闭源,但ChatGPT并非完全的黑盒子,可以从其开发公司OpenAI发布的若干技术报告中觅得芳踪。例如,高质量人类指令数据集,就是ChatGPT公开的秘密武器库之一。根据OpenAI,ChatGPT聘请了40名人类标注员,使用了和InstructGPT相同的训练方法——基于人类反馈的强化学习(RLHF),它分为三个步骤:1)监督微调(SFT):让标注员回答人类提问,用这一标注数据训练GPT;2)奖励模型(RM)训练:让标注员对机器的回答排序,相较于第一步由标注员直接撰写回答的生成式标注,排序作为判别式标注的成本更低,用这一标注训练模型,让它模拟人类排序;3)无人类标注,用近端策略优化算法(PPO)微调模型。这三个步骤对应的数据集的大小分别为1.3万个、3.3万个、3.1万个。RLHF是ChatGPT早期版本GPT3所不具备的功能,它使得只有13亿参数的InstructGPT表现出了比1750亿参数GPT-3更好的真实性、无害性和人类指令遵循度,更被标注员认可,同时不会折损GPT-3在学术评估维度上的效果。 Dolly2.0“手动”打造指令数据集,启发ChatGPT商用复现。近期开源大模型涌现,性能可圈可点(在部分问题的回答效果上接近ChatGPT),并且参数较小(约为百亿规模),训练成本低廉(不到1千美元),但指令数据集普遍基于GPT家族,基于OpenAI对版权的保护,无法商用。例如,斯坦福大学Alpaca的指令数据集有5.2万条,来自OpenAI的text-davinci-003引擎;加州大学Koala使用了约10万条用户与ChatGPT的对话数据;GPT4All的指令数据集来自GPT-3.5-Turbo;Vicuna使用了7万条用户与ChatGPT的对话数据。Dolly 2.0受ChatGPT监督微调(SFT)步骤启发,自行打造了高质量人类指令数据集,引领类GPT大模型进入商用新时代。具体来说,Databricks通过比赛和游戏的方式,激励5千多名员工自行撰写了1.5万条指令数据集的问题与答案对。尽管Databricks没有发布Dolly2.0与ChatGPT回答的详细的测试报告,但其方法与前述开源模型有一致性,所采用的技术路线都是“不增加模型参数,因此无需增加更多算力开支,而增加训练数据集本身的质量”,为行业提供了复现ChatGPT并商用化的新“弹药”。 模型和应用爆发时代,看好算力底座价值。正如我们在此前的报告《Web3视角下的AIGC算力进化论》中阐述的,“模型”或许不足以构成大语言模型应用的壁垒,伴随着ChatGPT复现“运动”的不断深化,“数据”或许也将不再是掣肘,“每个中型公司也拥有一个GPT”的未来或将实现,而与此同时,随着应用层不断将“蛋糕”做大,大型公司不断发展更大规模的模型,中小型公司不断入场,“算力”作为底座始终具备战略意义。 投资建议:该主题下建议关注:第三方IDC服务商:光环新网、奥飞数据、数据港、润泽科技、科华数据、宝信软件、世纪华通等。同时关注与之配套的:1)光模块服务商:新易盛、天孚通信、中际旭创、太辰光等;2)基础电信运营商:中国电信、中国移动、中国联通等;3)云计算服务平台:亚马逊、微软、谷歌、阿里、腾讯等。 风险提示:AIGC技术发展不及预期,AIGC商业落地进程不及预期。