您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[未知机构]:算力大跌与Deepspeed Chat开源–20230413 - 发现报告
当前位置:首页/会议纪要/报告详情/

算力大跌与Deepspeed Chat开源–20230413

2023-04-16未知机构花***
算力大跌与Deepspeed Chat开源–20230413

昨天算力的大涨还记忆犹新,今天就一个反向反包让人猝不及防,单从技术层面来说,即使今天有大量获利了结的需求,也不至于跌的这么突然,所以我们认为今天算力带动整个AI板块下跌更主要的原因是微软宣布开源DeepspeedChat。 DeepspeedChat是什么? DeepspeedChat是基于微软本身就有的、一直为AI社区所熟知的深度学习优化库DeepSpeed开发而成。 可以看到这个优化库一直在微软的技术库内,并不是一个新的东西,昨天的消息只是微软开源了这个优化库。 这个优化库具备训练、强化推理等功能,使用RLHF(人工反馈机 制的强化学习)技术,可以将训练速度提升15倍,成本却大幅度降低。 于是市场线性的理解为:多模态大模型训练成本降低—算力逻辑证伪。于是整个服务器-光模块-芯片全线大跌。 但是我们认为,这个线性的理解实际上是错误的,更多的是情绪层面的影响。 一个最粗暴的逻辑就是,AI之所以如此强势是因为OpenAI的多模态大模型GPT4的横空出世,而不是ChatGPT。而这个Deepspeed优化库微软一直有,OpenAI必然也可以用,那么OpenAI所披露的大模型对算力的需求必然已经计算了Deepspeed的影响。所以只有两种可能: 1.GPT4的算力需求已经使用了Deepspeed优化。那么Deepspeed开源之前,业内对于其他公司开发训练相同层次模型的算力需求测算就是默认包含了Deepspeed优化(这个测算也可以认为是错误的,因为没有Deepspeed优化技术,其他公司的开发训练成本将大大提高)。 2.GPT4的开发训练过程无法用Deepspeed优化。Deepspeed只能针对类ChatGPT模型做优化。但实际上所有公司最终对标的都是GPT4及以上的模型,而不是ChatGPT。我们倾向于是第二种可能,因为在OpenAI尚未建立统治地位的情况下,Deepspeed开源无异于授人以渔,对微软的伤害程度仅次于开源GPT4。任何一个理智的职业经理人都不会做出这样的选择,投资几百亿美元只为人类社会做贡献? 但无论事实如何,对算力需求的测算都不会因为Deepspeed开源而大幅改变。那么 DeepspeedChat的开源,真正的影响是什么呢?我们认为主要有下面几个影响: 1.推动个人和小型机构参与AI模型的开发。 2.笼络更多的参与者进入微软OpenAI生态圈,从而打击其他的潜在竞争者。 3.给微软带来更多的云端业务流水。 4.降低类ChatGPT模型的开发门槛,降低研究人员和入门级别类ChatGPT模型对算力的 要求。那么从算力需求的角度来考虑,只有1、4两项有影响。第一项实际上是利好整体AI发展的,同时也是边际利好算力,因为更多的参与者和更低的门槛都对应增量的算力需求。 而第四项也是利好整体AI发展的,但是边际利空算力,因为如果足够多的研发机构都停留在类ChatGPT模型阶段,那么优化库开源会降低整体的算力需求。 所以Deepspeed开源对算力的影响最终落到了两个问题上: 未来AI革命要开发的到底是类ChatGPT4、5、6还是更强大的GPT5、6、7?有多少大型机构愿意寄人篱下用微软的云服务开发次等模型? 答案不言自明。 所以让我们回到最初的那个问题: DeepspeedChat到底是什么? DeepspeedChat就是一个AI模型训练App。可以让更多的人用更低的成本去开发一些基础的类ChatGPT模型以供基本研究和娱乐用,与多模态大模型无关。 综上,DeepspeedChat开源对于算力需求几乎没有影响,甚至能够更快的刺激国内外大模型的开发,利好整个AI社区的发展。 业内马上应该会有大神去试试这个所谓的DeepspeedChat开发的模型到底成色如何。今天是情绪主导资金出逃,明天就是喜闻乐见的互道SB时刻了。 —————————————————————————————————————— 补充几个科普: DeepspeedChat提供训练的模型为OPT模型(OpenPre-trainedTransformerLanguageModels),并不是OpenAI的GPT/ChatGPT系列。 MetaAI已开放了OPT-175B模型,强度与GPT-3相当。 OPT后面带的175B指的参数量:175billion即1750亿参数。ChatGPT是GPT3特化而来,主要为处理对话,故称ChatGPT。 DeepspeedChat提供的示例OPT模型样本为1.3B/2.7B/6.7B/13B/66B。可以估算最终模型强度将远不如ChatGPT