ChatGPT引爆全世界:进一步应用,偏创意场景,例如图片场景生成等。100w用户耗时五天,到1亿用户耗时两个月,科技界认为ChatGPT为AI的iPhone时刻,模型发展较大后形成量变到质变,推理、逻辑能力有较高增长。ChatGPT发布后国内互联网、科技大公司开始建立自己的AI大模型。 ChatGPT引领第四次产业革命:OpenAI产品能很好实现人际交流,影响范围涵盖普通大众日常工作及生活 工作过程:以用户的输入及之前的对话作为context,向后续写文本,每次输出1个token(1token≈0.75word)。有人分析国内数据质量较差,无法反馈较好的数据,数据重要性固然较高,但发展到今天,数据依然重要但算法和技术能力是更重要的。ChatGPT工作原理为例,一开始 有预训练阶段,此后经历有监督学习(人工生成高质量问题和答案)、评价模型(部分需要数据,不同人回答及打分)、强化学习(让模型学会大概如何评价,再有问题和答案时有网络进行自动评价)、上下文处理等。预训练阶段会输入很多数据,300billiontokens,预测下一个token然后迭代学习。主要能力浓缩在transformer网络结构(12-16层),富含了海量参数,包含矩阵乘法、指数运算等。 GPT-3效果:在数据量合适及算法能力能使数据运用的情况下越大的模型效果越好。GPT-3对比版本有很多,训练过程及数据量一样,效果对比方面175B的模型问答表现明显高于其他。 推理成本:AWS1000token/次,A100 推理成本=2*参数量FLOPS/token*token生产数量*$/flop(峰值性能下)/实际flop利用率 10000V100GPU耗时14.8天,inhouse训练一次74w美元(没考虑其他成本)自建$74w AWS$12M 搜索推荐领域收益: Bing已引入ChatGPT Google每秒请求量很大,每年需要35Bcost,当前不会启用底层软硬件需求: ChatGPT大概需要3640PFdays,1750亿参数,占用45TB数据量,datacenter1200w/次,此外需要多卡互联集群能力、通讯能力,智能革命最底层的支撑是大的算力系统,且算力为通用的,通用编程框架也很重要。 大模型还在持续迭代,每年参数的提升量在10-20倍。 在模型迭代情况下,目前英伟达领军发布的产品(V100-A100-H100)架构升级,H100引入了新的技术能力,此外,卡间互联能力也持续增长。