您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[财通证券]:计算机行业投资策略周报:Claude3发布,捅破GPT-4封锁的天花板 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业投资策略周报:Claude3发布,捅破GPT-4封锁的天花板

信息技术2024-03-10杨烨财通证券朝***
计算机行业投资策略周报:Claude3发布,捅破GPT-4封锁的天花板

投资评级:看好(维持) 核心观点 证券研究报告 最近12月市场表现 计算机 沪深300 19% 8% -4% -15% -27% -38% 分析师杨烨 SAC证书编号:S0160522050001 yangye01@ctsec.com 相关报告 1.《新质生产力,聚焦计算机》2024-03-03 2.《央企发力,AI赋能,产业焕新》 2024-02-25 3.《智能驾驶研究框架:(三)特斯拉专题》2024-02-23 「ScalingLaw」生成式AI的第一性原理。今年二月以来生成式AI的产业趋势出现了两个重要变化:(i)Anthropic发布的Claude3系列模型,让我们看到被GPT-4封锁了长达一年的模型性能天花板开始被捅破、(ii)OpenAI发布的Sora模型,让我们意识到视频生成模型与语言模型一样也具有可扩展性 (scalable)。这意味着无论是大语言模型这条主线,还是视频/图像生成这条支线,它们在ScalingLaw这条第一性原则的有效性上都得到了进一步的佐证,这对于我们判断生成式AI的产业发展趋势而言有极为正面的意义。 「Claude3」GPT-4的最大挑战者。3月5日,由前OpenAI高管DarioAmodei创立的模型公司Anthropic重磅发布Claude3系列模型,包括Haiku、Opus、Sonnet三款模型,分别侧重于智能、平衡和速度。Claude3或是第一个成功挑战GPT-4的模型。我们从测试基准、视觉能力、代码能力、长文本能力、模型训练等10个维度总结了Claude3系列模型的亮点。 「Sora」构建世界的模拟器。2月15日,OpenAI推出首个视频生成模式Sora并指出扩大视频生成模型的参数规模是迈向创建能够模拟物理世界的通用工具的有前途的一步。Sora本质上是一个具有灵活采样尺寸的Diffusion-Transformer(DiT)。我们认为尽管模型的技术架构并非OpenAI原创,但始终致力于寻找最具有扩展性的技术方向可能正是OpenAI最大的禀赋。其次,Sora在训练过程中再次使用了GPT-4作为标注器,我们认为使用AI创造AI的“飞轮效应”已经出现。 「国产大模型」国人正在奋起直追。我们看到,国产基座模型在过去的一年中已经取得了显著的进步,它们在这场激烈的竞争中不仅没有“掉队”,甚至在某些方面还保持了领先,例如月之暗面的KimiChat对于大模型长文本能力的前瞻性判断。因此,随着国内资源进一步向头部厂商集中,人才和技术的加速平权,以及国产算力的崛起,我们有望看到国产基座模型对GPT-4的加速追赶。届时,我们无论是对国内模型、应用、还是算力相关的展望都会更加乐观。 投资建议:见正文 风险提示:AI技术迭代不及预期的风险,商业化落地不及预期的风险,政策支持不及预期风险,全球宏观经济风险。 请阅读最后一页的重要声明! 内容目录 1「ScalingLaw」生成式AI的第一性原理3 2「Claude3」GPT-4的最大挑战者4 3「Sora」构建世界的模拟器7 4「国产大模型」国人正在奋起直追9 5投资建议10 6风险提示10 图表目录 图1.OpenAI在2020年提出了ScalingLaw3 图2.Claude3系列模型的十大亮点4 图3.Claude3包括Haiku、Opus、Sonnet三款模型5 图4.Claude3系列模型基准测试分数比较5 图5.Claude3系列模型视觉能力基准测试分数比较6 图6.Claude系列模型召回率(recall)对比6 图7.Claude系列与主流模型API价格对比(单位:美金/一百万tokens)6 图8.图片/视频生成模型发展历程7 图9.Sora模型架构拆解图8 图10.DALLE-3内部与GPT-4V的互联互动8 1「ScalingLaw」生成式AI的第一性原理 ScalingLaw是本轮AI革命的第一性原理。OpenAI在2020年发表的论文中指出,随着模型规模、数据集规模和训练所使用的计算资源的增加,语言模型的性能能够逐渐提高。自去年3月GPT-4发布以来,全球范围内掀起了一场大模型的“军备竞赛”热潮,显著加速了对AI芯片的需求,也让人们更多地期待AI原生应用的诞生。但在过去一年中,代表行业最高水准的SOTA模型(GPT-4)依然没有被超越,这在一定程度上加剧了市场对ScalingLaw有效性的担忧,对于高质量语料的不足、训练硬件的瓶颈、是否需要Transformer的替代品等争论日益增加。值得欣喜的是,上述情况在今年二月以来出现了重要变化: 1)Anthropic发布的Claude3系列模型,让我们看到被GPT-4封锁了长达一年的模型性能天花板开始被捅破。 2)OpenAI发布的Sora模型,让我们意识到视频生成模型与语言模型一样也具有可扩展性(scalable)。 总结来说,无论是大语言模型这条主线,还是视频/图像生成这条支线,它们在ScalingLaw这条第一性原则的有效性上都得到了进一步的佐证,“大力出奇迹”持续自我验证,这对于我们判断生成式AI的产业发展趋势而言有极为正面的意义。这意味着,算力投入的隐含回报率在提高,更多的应用场景将随着模型能力提升被解锁,“硬件先行,软件/生态随后”的产业态势将持续保持。或许正如英伟达CEO黄仁勋在Q4财报电话会中提到的那样,“我们已经到达了生成式AI的引爆点”,投资上持续强化“先硬后软”的思路。 图1.OpenAI在2020年提出了ScalingLaw 数据来源:《ScalingLawsforNeuralLanguageModels》(OpenAI),财通证券研究所 2「Claude3」GPT-4的最大挑战者 图2.Claude3系列模型的十大亮点 Claude3或是第一个成功挑战GPT-4的模型。Anthropic由前OpenAI高管DarioAmodei于2021年创立,其创立团队还包括GPT-3论文的第一作者TomBrown等人。该公司分别于2023年的3月和7月推出了Claude1和Claude2系列模型,其中Claude2在当时已能够支持100k的上下文长度,成为了GPT-4强有力的竞争者,并在随后的9月获得了亚马逊40亿美金的投资。而在2024年3月5日,Anthropic又重磅发布Claude3系列模型,包括Haiku、Opus、Sonnet三款模型,分别侧重于智能、平衡和速度。如下我们总结了Claude3的十大亮点。 命名来源 Opus这个词源自拉丁语,原意是“史诗级的作品”,常用来指代一部完整的音乐作品;Sonnet来源于文学中的“十四行诗”;Haiku则来源于日本的一种传统短诗形式“俳句”。 事实类基准 Claude3Opus在MMLU等基准测评上表现优异,特别在GPQA这个含金量最高的评测中基准得分都超过了GPT-4(0314版本)和Gemini1.0Ultra。 人类偏好基准 在LMSYS对战榜上,Claude3Opus仅落后于GPT-4-1106和0125两个最新版本(投票数据截止3月7日)。 视觉能力 Claude在MMMU、visualQ&A基准测试中全面超越GPT-4V,甚至在Sciencediagram等读图表测试中小模型表现更为出色。 代码能力 Claude3Opus在HumanEval和MBPP测评上的平均分略高于GPT-4Turbo(1106版本),刷新了EvalPlus的榜单最佳成绩。 数学能力 国内评测机构SuperCLUE的测评结果显示,Claude3Opus在数学多步推理上略微强于GPT-4Turbo(1106版本),且为0-shot。 长文本能力 Claude3全系列支持200k长上下文,Opus模型下的召回率能达到98.3%,甚至在“大海捞针”测试中模型意识到了测试文本的有意设计。 API定价 性能最强的Opus价格为输入$15/1Mtokens,输出$75/1Mtokens,定价与GPT-48k相仿,是GPT-432k的一半;主打平衡的Sonnet定价则比GPT-4Turbo128k的一半还低,模型性价比明显。 模型训练 根据技术报告,Claude3系列模型是在亚马逊AWS和谷歌GCP上训练的,在训练时也使用了“内部生产的”合成数据作为训练数据的一部分。 可用性及后续升级 Opus和Sonnet模型现已上线,Haiku将在后续推出。Anthropic计划在未来几个月会持续对Claude进行迭代升级,如工具调用(FunctionCalling)、交互式编程(REPL)和更高阶的代理能力(Agent)。 数据来源:Anthropic官网,《TheClaude3ModelFamily:Opus,Sonnet,Haik》(Anthropic),HuggingFace官网,EvalPlus官网,SuperCLUE公众号,财通证券研究所 图3.Claude3包括Haiku、Opus、Sonnet三款模型 数据来源:Anthropic官网,财通证券研究所 图4.Claude3系列模型基准测试分数比较 数据来源:Anthropic官网,财通证券研究所 图5.Claude3系列模型视觉能力基准测试分数比较 数据来源:Anthropic官网,财通证券研究所 图6.Claude系列模型召回率(recall)对比 数据来源:《TheClaude3ModelFamily:Opus,Sonnet,Haik》(Anthropic),财通证券研究所 图7.Claude系列与主流模型API价格对比(单位:美金/一百万tokens) 数据来源:ArtificialAnalysis官网,财通证券研究所 3「Sora」构建世界的模拟器 视频生成模型作为构建世界的模拟器。2月15日,OpenAI推出首个视频生成模式Sora,该模型在视频的保真度、长度、稳定性、一致性等方面都做到SOTA性能。在此之前,大语言模型(LLMs)通过优化下一个词(token)预测,实现了对文本语料知识的无损压缩。与之对应,Sora的推出意味着视频生成模型可以通过去噪时空块(spacetimepatches),实现了对物理世界中的时间、空间的抽象认知。作为一个DiffusionTransformer,Sora和LLMs中的Transformer一样,展现出了惊人的扩展性(Scalability),即随着训练算力的增加,生成的样本质量显著提升。因此,OpenAI认为,扩大视频生成模型的参数规模是迈向创建能够模拟物理世界的通用工具的有前途的一步。 图8.图片/视频生成模型发展历程 数据来源:《Sora:AReviewonBackground,Technology,Limitations,andOpportunitiesofLargeVisionModels》(YixinLiu,KaiZhang等),财通证券研究所 基于Diffusion-Transformer架构的视频生成模型。在模型架构上,Sora本质上是一个具有灵活采样尺寸的Diffusion-Transformer(DiT),其主要由三部分组成:(i)一个将视频从像素空间压缩到潜空间(latentspace)的时空压缩器、 (ii)一个处理并输出去噪的潜空间表示的ViT、(iii)一个类似于CLIP的条件机制接收来自LLM的用户增强指令和潜在的视觉提示,以引导扩散模型生成指定样式或主题的视频。在完成多步去噪环节后,模型会得到生成的视频的潜在表示,然后用相应的解码器映射回像素空间,最后就得到了我们看到Sora生成的成品视频。从Sora模型的技术解读中,我们认为尽管模型的技术架构并非OpenAI原创,但始终致力于寻找最具有扩展性的技术方向可能正是OpenAI最大的禀赋。或许正如SamAltman自己所说,任何“创造性”都是对过去发生的事情加上一个误差项(ε)的一种重新组合,乘以反馈循环的质量和迭代次数。 人们认为他们应该最大化误差项(ε),但实