国外大模型引领技术潮流,AI技术加速迈向AGI:微软开源DeepSpeed-Chat系统框架,可在模型训练中加入完整RLHF流程,为模型训练节省算力与时间,降低了RLHF的训练壁垒,后续将进一步催生利用开源大模型进行微调的开发需求,大模型的广泛应用将持续催生训练与推理的算力需求。OpenAI联合创始人在TED上展示GPT-4自动化解决问题的能力,表明其正向AGI(通用人工智能)进一步迈进。我们认为GPT的自动化进程将持续推进,大模型与插件结合可能会导致流量入口的变化,后续大模型厂商会逐步与各个APP平台形成新的合作关系,流量的竞争已然开始。谷歌将“谷歌大脑”与Deepmind合并,成立Google DeepMind,开展Gemini项目欲抗衡OpenAI。Meta继推出零样本分割一切的SAM,又迅速开源DINOv2,该模型具备高性能的视觉特征,用于不同下游视觉任务如分类、分割、图像检索和深度估计,而且不需要微调。DINOv2的推出将进一步提升CV泛化能力,应用场景进一步扩张,拥有独特数据资产、客户粘性高的CV公司将持续受益。Reddit要求科技巨头付费使用API接口,数据价值有待重估,拥有人类交互数据、行业know-how数据、版权IP等优质资产的公司有望实现商业化变现。 国内大模型加速追赶,新模型、新应用持续涌现:商汤在4月10日的技术交流日发布了其最新的大模型体系“日日新”,包括自然语言生成、文生图、感知模型标注、以及模型研发功能。商汤大模型体系的优势在于生态,即上述生成式AI应用可相互叠加应用,有望加速多模态应用在直播电商、影视创作、广告设计等诸多领域的渗透,实现生产力的再次革命。近日,字节跳动公益在火山引擎举办的“原动力大会”上宣布,火山引擎要为大模型客户提供高稳定性和高性价比的AI基础设施,尽管尚未向外界公测其大模型,但其在算力和人才上的投入都表明了字节要在大模型上发力的决心。科大讯飞“星火”大模型将在5月6日正式发布,之后还会有三轮的迭代:一是多轮对话的理解能力,二是编程能力,三是数理能力。从目前内测效果来看,我们认为讯飞的“星火”大模型位于国内的第一梯队,在语法和拼写能力、文本生成能力有一定的优势,综合能力在GPT-3左右。 投资建议:建议关注:1)算力:海光信息、龙芯中科、浪潮信息、中科曙光、宝信软件、润泽科技、神州数码、景嘉微等;2)算法:海天瑞声、拓尔思、海康威视、大华股份、科大讯飞、云从科技、格林深瞳、萤石网络、奥普特等; 3)垂直应用:工具及多模态应用:金山办公、万兴科技、三六零、福昕软件、罗普特、当虹科技、创维数字、卡莱特、光云科技等;智慧政务:博思软件、中科江南、税友股份、德生科技等;智慧医疗:卫宁健康、嘉和美康等。具体细分领域请见正文。 风险提示:AI技术迭代不及预期的风险;商业化落地不及预期的风险;政策监管风险。 1国内外大模型持续涌现,AI技术加速迈向AGI 1.1微软:DeepSpeed-Chat降低RLHF训练壁垒,GPT-4推出对标AutoGPT新功能 微软开源DeepSpeed-Chat系统框架,可在模型训练中加入完整RLHF流程,为模型训练节省算力与时间。DeepSpeed-Chat提供支持端到端的RLHF规模化系统,使复杂的RLHF训练变得快速、经济并且易于大规模推广,让ChatGPT类模型更容易被普通数据科学家和研究者使用,并使RLHF训练真正普及到AI社区。为了应对这些挑战,研究者将DeepSpeed训练和推理的全部系统能力组成了一个统一的混合引擎(Hybrid Engine),DeepSpeed-HE具备以下优势: 高效且经济:比现有系统快15倍以上,使RLHF训练快速且经济实惠。 卓越的扩展性:能够支持训练拥有数千亿参数的模型,并在多节点多GPU系统上展现出卓越的扩展性。 实现RLHF训练的普及化:仅凭单个GPU,就能支持训练超过130亿参数的模型。 图1.DeepSpeed-Chat节省RLHF训练时间 DeepSpeed-Chat的RLHF训练流程包括三个步骤,DeepSpeed核心在于加速步骤三的RLHF过程: 监督微调(SFT),使用精选的人类回答来微调预训练的语言模型,以应对各种查询。 奖励模型微调,用一个包含人类对同一查询的多个答案打分的数据集,来训练一个独立的(通常比SFT小)奖励模型(RW)。 RLHF训练,在这一步SFT模型通过使用近似策略优化(PPO)算法,从RW模型的奖励反馈进一步微调。 图2.DeepSpeed-Chat的RLHF训练流程 DeepSpeed-Chat混合引擎在步骤三当中的生成阶段提供加速。RLHF流程的第一步和第二步类似于大模型的常规微调,它们由基于ZeRO的优化和DeepSpeed训练中灵活的并行策略组合,来实现规模和速度。而第三步是在性能影响方面最复杂的部分,也是最耗时的部分。将DS-Chat、CAI-Coati、H F- DDP训练过程进行对比,发现DS-Chat大幅缩减了生成阶段的时间。我们认为DeepSpeed-Chat降低了RLHF的训练壁垒,将进一步催生利用开源大模型进行微调的开发需求,大模型的广泛应用将持续催生训练与推理的算力需求。此前基于Meta的开源模型LLaMa衍生出的低成本大模型陆续出现,后续有望看到更多基于RLHF优化后的相关模型诞生,进一步丰富开源大模型社区生态。 图3.DeepSpeed-Chat混合引擎在生成阶段提供加速 OpenAI展示“官方版AutoGPT”,GPT-4迎来AGI历史性时刻。4月20日,OpenAI联合创始人Greg Brockman受邀出席“2023TED”大会,并在现场分享了多个ChatGPT Plus(GPT-4)未发布的新功能和插件。根据展示效果,当前GPT-4已经具备了跨业务流程、平台、系统的端到端超级自动化功能,形成了开源应用Auto-GPT的OpenAI“官方版”。 GPT-4通过连接DALL.E.2,已具备生成图像的功能。其本质上是GPT-4根据用户需求生成了文案,再调用DALL.E.2,进而输出图像。并且文案细节可进行展示与调整。 向GPT-4输入Excel文件,并提出模糊的分析要求,比如根据表格里的数据做一些统计分析。GPT-4可猜测使用者意图,并给出分析图表,并根据使用者意愿修改图表细节。 图4.GPT-4生成图像 图5.GPT-4通过表格数据作图 GPT-4当前展示了自动化解决问题的能力,正在向AGI(通用人工智能)进一步迈进。我们认为传统的UI并不会消失,但大模型与插件结合可能会导致流量入口的变化,用户由之前点击多个APP才能完成一个体系的操作(比如烹饪一桌菜肴),变为与大模型沟通,再由大模型向各个APP下达指令(购买食材)。因此后续大模型厂商会逐步与各个APP平台形成新的合作关系,流量的竞争已然开始。 1.2谷歌:ViT-22B开启CV大模型时代,打造Gemini抗衡OpenAI 谷歌引领CV大模型时代。相比语言模型动辄成千上万亿的参数量,当前最大的计算机视觉Transformer模型ViT-e的参数量还只有40亿参数。近期谷歌研究人员提出了一种能够高效且稳定训练大规模Vision Transformers(ViT)模型的方法,成功将参数量提升到220亿(华为盘古CV大模型参数30亿)。ViT-22B模型在视觉模型当中视觉认知度与人类最为接近,形状偏差记录得分最高:大多数模型都有很强的纹理偏差,20-30%的形状偏差/70-80%的纹理偏差;人类为96%/4%,而ViT-22B达到了87%/13%。 图6.谷歌ViT-22B模型具有最接近人类的形状偏差记录 谷歌成立Google DeepMind,开展Gemini项目欲抗衡OpenAI。4月20日,谷歌CEO正式宣布Google DeepMind成立,将谷歌大脑和DeepMind两个世界级AI团队正式合并。2014年,谷歌母公司Alphabet从Demis Hassabis手中以5亿美元买下了DeepMind,该公司创造过AlphaGo战胜人类棋手,也创造过AlphaFold能够预测全世界已知蛋白质折叠方式;2015年成立的“谷歌大脑”诞生了Tensorflow与Transformer。当前二者正在合作开展了一项“双子星(Gemini)”项目以应对ChatGPT的挑战。据统计,今年2月5日-3月11日相比1月1日-2月4日,微软必应APP下载量翻了8倍,谷歌APP则下跌了2%,谷歌正在全面调整战略以应对OpenAI的竞争。 图7.Bing与谷歌APP下载量变化 1.3M eta:继SAM之后推出DINOv2,构建CV开源社区 Meta发布史上首个图像分割基础模型SAM,将NLP领域的prompt范式引进CV,让模型可以通过prompt一键抠图。2023年4月6日,Meta实现了一个完全不同的CV范式,你可以在一个统一框架prompt encoder内,指定一个点、一个边界框、一句话,直接一键分割出物体。SAM可以成为更大的AI系统的一部分,对世界进行更通用的多模态理解,比如,理解网页的视觉和文本内容;在AR/VR领域,SAM可以根据用户的视线选择对象,然后把对象“提升”为3D;对于内容创作者,SAM可以提取图像区域进行拼贴,或者视频编辑;SAM还可以在视频中定位、跟踪动物或物体,有助于自然科学和天文学研究。 图8.SAM能从照片或视频中对任意对象实现一键分割 继零样本分割一切的SAM,Meta又迅速开源DINOv2模型。DINOv2能产生高性能的视觉特征,用于不同下游视觉任务如分类、分割、图像检索和深度估计,而且不需要微调。其创新点和优秀性能来源于使用图像自监督学的方式训练,不需要图像和文本对应的训练数据,克服了文本对图像描述不够全面的局限性。 DINOv2蒸馏成小模型后效果依然优秀,能在大部分测试基准超过之前最优模型OpenCLIP。Meta表示正计划将DINOv2集成到更大的人工智能系统中,提供丰富图像特征与大语言模型交互。DINOv2主要作用主要包括: 深度估计:在2D图像中分析出3D重建的纵深数据。 语义分割:划分不同物体的边界轮廓。 实例检索:上传一张照片,可检索出大量同题材的图片。 图9.DINOv2可进行2D图像深度估计 DINOv2的推出意味着: CV模型的泛化能力进一步提升。OpenAI的GPT系列最引人注目的就是其零样本学习能力(zero-shot),这意味着模型在预训练完成之后不需要任何下游任务的标注数据来进行微调,而是直接进行预测。本次DINOv2也具备类似的技术亮点,其自监督学习(SSL)方面比先前的SOTA有了显著的改进,并达到了与弱监督学习(WSL)相当的性能。这意味着视觉模型也具备通过在大量数据上进行自监督学习后学习到全部视觉特征的潜力。 蒸馏助力大模型降本加速应用落地。DINOv2的训练算法基于蒸馏,研究人员将1B参数训练出的ViT模型压缩成较小的模型,而这些模型在大多数图像和像素级别上已超过了现有的OpenCLIP在图像和像素层面上的基准。这个过程允许以最小的准确性成本将最高性能的架构压缩成更小的架构,从而显著降低算力成本。 我们认为,Meta继SAM之后推出DINOv2,将进一步提升CV泛化能力,应用场景进一步扩张,拥有独特数据资产、客户粘性高的CV公司将持续受益。 1.4Reddit:要求科技巨头付费使用API接口,数据价值凸显 Reddit要求科技巨头付费使用API接口。4月18日,Reddit计划开始向访问其应用程序编程接口(API)的公司收费,外部企业可以通过付费下载和处理社交网络中的海量对话。Reddit被称为“美国版百度贴吧”,是一家拥有18年历史的社交媒体平台,用户可以在上面发帖、评论、交流各种话题。近年来,Reddit上发布的聊天内容已成为谷歌、OpenAI和微软等公司的训练素材,这些公司正在搜集和使用Reddit平台上的对话来开发ChatGPT等