您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[天风证券]:强化学习与决策算法进步或带来Q大模型能力的新突破,Agent能力落地有望加速 - 发现报告
当前位置:首页/行业研究/报告详情/

强化学习与决策算法进步或带来Q大模型能力的新突破,Agent能力落地有望加速

信息技术2023-11-23孔蓉、李泽宇天风证券肖***
强化学习与决策算法进步或带来Q大模型能力的新突破,Agent能力落地有望加速

2023年11月23日 OpenAIQ*:超越GPT4?证券研究报告 强化学习与决策算法进步或带来Q*大模型能力的新突破,Agent能力落地有望加速 我们认为大模型能力强化除了模型参数量、数据量之外,强化学习进步也是大模型能力突破重要的可能因素。 强化学习此前即为ChatGPT关键能力突破的因素之一。如RLHF即为3.5能力迭代的关键来源之一。OpenAI首席科学家Ilya曾表示,AI领域,每一个令人惊叹的创新都源自于强化学习。 OpenAI在多模型强化学习决策方面取得重大进展。这些进展将会推动Q 学习算法在更多场景的应用,并促进相关决策系统的实现。 Q学习算法或带来强化学习下智能体的决策能力持续提升。Q学习是一种基于强化学习的算法,用来在马尔科夫决策过程中求解最优控制问题。它的目标是通过学习最优策略,使智能体在未知环境中做出最佳选择。Q学习依据Bellman方程更新状态-动作对应的Q值,逼近最优值函数。智能体通过与环境交互,观察到新的状态和奖励,来更新执行各个动作的Q值。 OpenAI近期持续引入强化学习和决策算法研究人员。23年7月份新引进的研究员NoamBrown,开展多步推理和多智能体互动方面的研究。NoamBrown此前参与发表的工作将语言模型与规划和强化学习算法结合,大幅提升了AI在复杂策略游戏中的表现,开发出第一批在德扑无上限游戏中击败顶级玩家的AI。这为OpenAI进一步增强强化学习系统的决策能力奠定了基础。 OpenAI近期于5月份发布的研究也表明,调整训练方式和引入更大规模的监督数据,将会显著提升强化学习系统的数学推理能力。OpenAI引入针对过程的强化学习监督,进一步提升大模型在数据推理与计算的准确性。 我们认为相关技术突破值得期待:我们此前深度解析Agent,认为首先任务拆解与反思能力对实现效果相对关键,其次为短期与长期记忆、浏览器与操作系统数据接入能力。多Agent为应用关键,AIAgent在面向科学研究、toB研发、个人助手场景方面的应用具备革命性。此外游戏场景下AIAgents对部分类型游戏NPC的替代可能会创造出全新的游戏模式。我们认为强化学习和决策算法进步下Agent实现路径有望创新。 投资建议:我们认为强化学习与决策算法进步或带来Q*大模型能力突破,GPT4+强化学习和决策算法,或能实现比GPT4更强的Agent能力。Agent有望百花齐放,在产业与场景逐渐落地,对于同等参数与同等算力消耗,更丰富的应用场景意味着推理需求的持续提升,我们持续看好微软、英伟达、AI+电商、AI+教育等。 风险提示:技术进步不及预期,AI相关的监管风险,OpenAI公司治理 作者 孔蓉分析师 SAC执业证书编号:S1110521020002 kongrong@tfzq.com 李泽宇分析师 SAC执业证书编号:S1110520110002 lizeyu@tfzq.com 请务必阅读正文之后的信息披露和免责申明1 分析师声明 本报告署名分析师在此声明:我们具有中国证券业协会授予的证券投资咨询执业资格或相当的专业胜任能力,本报告所表述的所有观点均准确地反映了我们对标的证券和发行人的个人看法。我们所得报酬的任何部分不曾与,不与,也将不会与本报告中的具体投资建议或观点有直接或间接联系。 一般声明 除非另有规定,本报告中的所有材料版权均属天风证券股份有限公司(已获中国证监会许可的证券投资咨询业务资格)及其附属机构(以下统称“天风证券”)。未经天风证券事先书面授权,不得以任何方式修改、发送或者复制本报告及其所包含的材料、内容。所有本报告中使用的商标、服务标识及标记均为天风证券的商标、服务标识及标记。 本报告是机密的,仅供我们的客户使用,天风证券不因收件人收到本报告而视其为天风证券的客户。本报告中的信息均来源于我们认为可靠的已公开资料,但天风证券对这些信息的准确性及完整性不作任何保证。本报告中的信息、意见等均仅供客户参考,不构成所述证券买卖的出价或征价邀请或要约。该等信息、意见并未考虑到获取本报告人员的具体投资目的、财务状况以及特定需求,在任何时候均不构成对任何人的个人推荐。客户应当对本报告中的信息和意见进行独立评估,并应同时考量各自的投资目的、财务状况和特定需求,必要时就法律、商业、财务、税收等方面咨询专家的意见。对依据或者使用本报告所造成的一切后果,天风证券及/或其关联人员均不承担任何法律责任。 本报告所载的意见、评估及预测仅为本报告出具日的观点和判断。该等意见、评估及预测无需通知即可随时更改。过往的表现亦不应作为日后表现的预示和担保。在不同时期,天风证券可能会发出与本报告所载意见、评估及预测不一致的研究报告。天风证券的销售人员、交易人员以及其他专业人士可能会依据不同假设和标准、采用不同的分析方法而口头或书面发表与本报 告意见及建议不一致的市场评论和/或交易观点。天风证券没有将此意见及建议向报告所有接收者进行更新的义务。天风证券的资产管理部门、自营部门以及其他投资业务部门可能独立做出与本报告中的意见或建议不一致的投资决策。 特别声明 在法律许可的情况下,天风证券可能会持有本报告中提及公司所发行的证券并进行交易,也可能为这些公司提供或争取提供投资银行、财务顾问和金融产品等各种金融服务。因此,投资者应当考虑到天风证券及/或其相关人员可能存在影响本报告观点客观性的潜在利益冲突,投资者请勿将本报告视为投资或其他决定的唯一参考依据。 投资评级声明 类别说明评级体系 买入预期股价相对收益20%以上 股票投资评级 行业投资评级 自报告日后的6个月内,相对同期标普 500指数的涨跌幅 自报告日后的6个月内,相对同期标普 500指数的涨跌幅 增持预期股价相对收益10%-20% 持有预期股价相对收益-10%-10% 卖出预期股价相对收益-10%以下 强于大市预期行业指数涨幅5%以上 中性预期行业指数涨幅-5%-5% 弱于大市预期行业指数涨幅-5%以下 天风证券研究 北京海口上海深圳 北京市西城区德胜国际中心B 座11层 邮编:100088 邮箱:research@tfzq.com 海南省海口市美兰区国兴大道3号互联网金融大厦 A栋23层2301房邮编:570102 电话:(0898)-65365390 邮箱:research@tfzq.com 上海市虹口区北外滩国际客运中心6号楼4层 邮编:200086 电话:(8621)-65055515传真:(8621)-61069806 邮箱:research@tfzq.com 深圳市福田区益田路5033号 平安金融中心71楼邮编:518000 电话:(86755)-23915663传真:(86755)-82571995 邮箱:research@tfzq.com 请务必阅读正文之后的信息披露和免责申明2