· 行业周报|通信 CriticGPT用AI训练AI,美光发布最新财报 AI行业跟踪28期(20240624-20240628) 核心结论 行业要闻追踪 OpenAI发布最新模型CriticGPT,旨在捕捉ChatGPT输出中的错误。 陈彤S0800522100004 分析师 证券研究报告 2024年07月01日 OpenAI正在人类反馈强化学习(RLHF)中应用该模型,以帮助人类监督AI完成复杂任务。CriticGPT基于GPT-4接受了RLHF训练,其训练思路与GAN网络类似,数据中包含大量的错误输入用以提高模型性能。 CriticGPT的成功意味着向可扩展监督,也就是用弱模型监督训练更强的模型迈出了重要的一步,在未来可能进一步推动人工智能能力的提高,在应用落地方面可应用在软件测试、代码生成等领域。 美光(MU.O)于北京时间2024年6月27日早的美股盘后发布了2024财 年第三季度财报(截止2024年5月),经调整营收68.1亿美元,同比增长81.5%,但对第四季度预计不及市场预期,当日股价下跌8%。第三财季美光的DRAM收入环比增长13%,达到47亿美元;NANDFlash收入环比 增长32%;数据中心SSD收入环比提高一倍,数据中心收入环比增长超50%。AI带动下公司的AI相关产品份额提升,如HBM、大容量内存条和数据中心SSD等。 行情回顾 本周(06.24-06.28),我们构建的西部AI股票池中,108家A股公司整体周平均跌幅3.06%,53家美股公司整体周平均涨幅2.64%。A股市场中本周(06.24-06.28)涨幅居前五的个股分别是中文在线(+13.34%)、当虹科技(+12.47%)、亚通股份(+7.54%)、掌阅科技(6.81%)、鹏鼎控股(+4.91%)。 美股市场中本周(06.24-06.28)涨幅居前五的个股分别是BuzzFeed(+29.58%)、BigBear.aiHoldings(+17.05%)、CREDOTECHNOLOGY(+16.19%)、Chegg(+10.88%)、Sprinklr(+10.19%)。 投资建议:AIGC和数字中国共振,算力托底。建议重点关注AI算力硬件,关注光模块(中际旭创、天孚通信、源杰科技等);散热领域(英维克)及 ICT设备商等。 AI应用的发展是影响AI板块估值的核心矛盾。在AI产业高速成长初期,投资逻辑上来看核心关注应用端增量需求的创造,投资节奏来看,前期是算力 基础设施建设和大模型训练先行,后期重点关注应用持续强化带来机会。 风险提示:技术落地不及预期、硬件设备市场接受度不及预期、监管政策风险、中美贸易摩擦风险。 chentongg@research.xbmail.com.cn 相关研究 通信:Anthropic新模型能力攀升,华为发布 HarmonyOSNEXT—AI行业跟踪27期 (20240617-20240621)2024-06-24 通信:苹果WWDC24召开,博通业绩超预期 —AI行业跟踪26期(20240610-20240614) 2024-06-16 通信:Computex2024百花齐放,Mamba架构第二代发布—AI行业跟踪25期 (20240603-20240607)2024-06-13 索引 内容目录 一、AI行业重点事件点评3 1.1OpenAI发布基于GPT-4的新模型CriticGPT,用AI训练AI3 1.2美光FY24Q3财报发布,营收同比高速增长7 二、AI行业动态一览9 2.1国外行业动态9 2.2国内行业动态10 2.3行业展会/大会前瞻梳理11 三、AI行情回顾:美股高速serdes涨幅明显,其他板块呈不同涨跌幅11 四、投资建议:持续关注AI应用和算力基础设施12 五、风险提示12 图表目录 图1:CriticGPT使用示例3 图2:识别和标记代码错误能力4 图3:人类和CriticGPT工作效果分析4 图4:CriticGPT训练流程5 图5:CriticGPT在艰巨任务上帮助有限6 图6:FY20Q1-FY24Q3单季度营收及同、环比增速(亿美元;%;%)7 图7:FY20Q1-FY24Q3单季度净利润及同、环比增速(亿美元;%;%)7 图8:2020-2024年度前三季度营业收入和毛利关系(亿美元)8 图9:2023-2024年度各季度销售收入与毛利关系(亿美元)8 图10:HBM3E结构图9 图11:2500NVMeTMSSD图示9 图12:A股AI行业细分板块周涨跌幅对比(06.24-06.28)12 图13:美股AI行业细分板块周涨跌幅对比(06.24-06.28)12 一、AI行业重点事件点评 1.1OpenAI发布基于GPT-4的新模型CriticGPT,用AI训练AI 事件:6月28日凌晨,OpenAI在其官网发布了最新模型CriticGPT。该模型基于GPT-4训练,旨在捕捉ChatGPT输出中的错误。OpenAI正在人类反馈强化学习(RLHF)中应用该模型,以帮助人类监督AI完成复杂任务。 点评: 亮点1:模型用途多样,审查代码准确率提高60%。 OpenAI认为,目前部署的最强大的人工智能系统都是通过人类反馈强化学习(RLHF)进行训练的。这是基于人类评估人工智能输出通常比展示理想输出更快、更容易的基础事实 决定的。然而,随着模型变得越来越强大,模型未来将达到即使是经验丰富的专家也无法可靠地评估其输出的质量或正确性。这种预测的人类评估缺陷是RLHF的一个根本限制。 为了提高人类的评估能力并克服这一限制,OpenAI团队开发了CriticGPT,这是一个基于GPT-4的模型,经过专门训练可以对代码和其他AI输出进行批评性评估,起到提升RLHF流程的质量的作用。 CriticGPT的使用流程和ChatGPT十分近似。接收一个问题和相应的回答作为输入,然后生成一个评论,指出回答中的具体错误。评论的结构通常包含多个部分,每个部分都针 对原始回答中的特定内容进行评论,这种方法允许CriticGPT提供详细和针对性的反馈,有助于识别和解释AI生成内容中的潜在问题。 图1:CriticGPT使用示例 资料来源:量子位,西部证券研发中心 CriticGPT的功能主要面向三个方面: 1、错误检测:CriticGPT可以快速识别模型输出中的错误,帮助开发者及时发现并解决问题。主要面向的问题是GPT提供的代码和回答的幻觉问题。 2、性能评估:CriticGPT可以对模型的性能进行全面评估,包括准确性、鲁棒性、泛化能力等,帮助开发者了解模型的优缺点。 3、优化建议:CriticGPT会根据评估结果,提供针对性的优化建议,帮助开发者提高模型的性能。并根据用户的偏好和行为模式,提供更加个性化的服务和建议。 图2:识别和标记代码错误能力图3:人类和CriticGPT工作效果分析 资料来源:网猫科技屋,西部证券研发中心资料来源:量子位,西部证券研发中心 从模型效果来看, 1、在发现人为插入的bug方面,人类审核员平均只能找到25%,而CriticGPT的成功率高达75%以上。 2、在评估自然出现的Bug时,有63%的情况下人类更倾向于选择CriticGPT的评论而非人类评论。 3、CriticGPT的评论被认为比ChatGPT的更全面,更少出现”幻觉”和无关紧要的挑剔。如果通过CriticGPT获得帮助审查ChatGPT编写的代码,人类训练师的审查效果比没有获得帮助的人强60%。 4、在评估非代码任务时,成功识别出数百个在ChatGPT训练数据中被人类认为是“完美”的错误。 亮点2:针对RLHF改进,利用插入错误方法训练。 CriticGPT的训练基于GPT-4,也接受了RLHF训练,但特别之处在于训练数据中包含大量的错误输入。具体来看分为四步: 1、人类评估员对ChatGPT生成的结果进行修改,故意引入一些不易察觉的错误。 2、评估员扮演代码审查员的角色对于每个引入的错误记录一个解释。这个解释的写法就像是他们在进行正常的代码审查时发现了这个错误,写下他们对这些bug的批评和改进。 3、评估员会确保他们引入的错误不容易被CriticGPT发现,有助于提高数据集的质量。 4、评估员对CriticGPT对这段被修改过的代码的各种评论进行排序。 这种方法允许研究人员创建一个包含已知错误的高质量数据集,通过让人类评估员同时创建错误和评估对这些错误的评论,研究人员可以获得丰富的训练和评估数据。 图4:CriticGPT训练流程 资料来源:量子位,西部证券研发中心 CriticGPT在训练过程中有两点值得注意: 训练思路与生成式对抗网络(GAN)的思路类似,其中生成器的任务由标注员负责。在训练过程中不断让标注员验证自己插入的bug是否足够隐蔽,是否能够骗过当前版本的CriticGPT。利用对抗方法加速CriticGPT的进化,使其学会发现越来越隐蔽的问题。 OpenAI使用了一种“强制采样束搜索”(FSBS)的技术,允许CriticGPT在生成评论时既能保持全面,又能减少“幻觉”和“鸡蛋里挑骨头”的现象。具体来说,FSBS会强制模型生成多个不同的评论片段,用奖励模型对这些片段进行评分,最后根据评分和一个 长度修正因子来选择最佳的评论组合。通过调整长度修正因子,可以在评论的全面性和准确性之间找到最佳平衡点,既不会错过重要问题,又不会过度挑剔。 亮点3:进一步开发空间巨大,面向流程化、泛用化改进。 OpenAI同时提到了目前开发CriticGPT的四点局限。 1、OpenAI用ChatGPT的简短答案训练CriticGPT,因此未来需要发掘能帮助训练师理解冗长且复杂任务的方法。 2、模型仍然会产生幻觉,这些幻觉可能会导致训练师做出错误的判断和标注。 3、有时现实世界中的错误可能分散在答案的许多部分之中,OpenA目前的工作重点是让模型指出一处的错误,未来还需要解决分散在不同位置的错误。 4、CriticGPT只能提供有限的帮助:如果ChatGPT面对的任务或响应极其复杂,即使是有模型帮助的专家也可能无法正确评估。 图5:CriticGPT在艰巨任务上帮助有限 资料来源:量子位,西部证券研发中心 OpenAI表示,为了协调日益复杂的AI系统,人们需要更好的工具。在对CriticGPT的研究中,OpenAI发现,将RLHF应用于CriticGPT有望帮助人类为GPT-4生成更好的RLHF数据。OpenAI计划进一步扩大这项工作,并将其付诸实践。 我们认为,CriticGPT的成功意味着向可扩展监督,即用弱模型监督训练更强的模型,迈出了重要的一步。尽管目前CriticGPT并没有帮助人类显著提高艰难任务上的准确性,基于此框架的CriticGPT有望得到进一步改进,未来有望进一步提升AI的能力,促进AI在软件测试、代码生成等领域的进步。 1.2美光FY24Q3财报发布,营收同比高速增长 事件:美光(MU.O)于北京时间2024年6月27日美股盘后发布了2024财年第三季度 财报(截至2024年5月),经调整后营收68.1亿美元,同比增长81.5%,当日股价下跌8%。 点评: 分析1:内存芯片制造龙头,乘AI东风而起。 美光科技公司(MicronTechnology,Inc.,简称“美光”)成立于1978年,总部位于美国爱达荷州博伊西市,是全球领先的半导体存储解决方案提供商。美光主营设计、开发和制造内存和存储产品。其产品包括动态随机存取存储器(DRAM)、闪存(NANDFlash) 和固态硬盘(SSD)。 美光FY2024第三财季总营收为68.1亿美元(分析师预期66.7亿美元),较上年同期的 37.5亿美元同比增长81.6%,高于上个财季的收入58.2亿美元;营业利润9.41亿美元,高于市场预期的8.69亿美元;调整后营业利润率28.1%;