您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[东方证券]:计算机行业动态跟踪:Claude 3.5 Sonnet性能全面升级,模型厂商竞争进入新阶段 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业动态跟踪:Claude 3.5 Sonnet性能全面升级,模型厂商竞争进入新阶段

信息技术2024-06-23浦俊懿、陈超东方证券李***
计算机行业动态跟踪:Claude 3.5 Sonnet性能全面升级,模型厂商竞争进入新阶段

行业研究|动态跟踪 看好(维持) Claude3.5Sonnet性能全面升级,模型厂商竞争进入新阶段 计算机行业 国家/地区中国 行业计算机行业 报告发布日期2024年06月23日 核心观点 6月21日,Anthropic发布了Claude3.5系列第一款产品Claude3.5Sonnet。 Claude3.5Sonnet在性能方面对比Claude3Opus全面升级,并在多个模型指标中超越GPT-4o。Claude3.5Sonnet在运行速度方面是Claude3Opus的两倍,成本仅为其五分之一,且定价与之相同皆为每百万输入token收费$3,每百万输出token收费$15,并具有200K令牌上下文窗口。 Claude3.5Sonnet在基准测试中表现优异,多方面力压GPT-4o。Claude3.5 Sonnet在性能上对比Claude3系列有巨大提升,并为研究生水平推理(GPQA)、本科生水平知识(MMLU)、编码能力(HumanEval)等设定了全新的行业基准。Claude3Sonnet在捕捉微妙差异、展现幽默以及执行复杂指令方面获得显著提升,可输出流畅自然且亲切的高质量内容,为目前最具人性且最强性能的AI模型。同时,Claude3.5Sonnet在内部编码评估中展示惊人能力,可解决64%的问题,对比过去产品Claude3Opus可解决38%问题有较大提升。 Claude3.5Sonnet为目前最强大的视觉模型。Claude3.5Sonnet在视觉能力各方面表现最为优异,在多模态任务评估中仅一项略逊于GPT-4o,其余各项如视觉数学推理、科学图解、图表问答和文档可视化问答皆力压其他模型。其视觉推理任务能力表现最为优异,如解释图表等,可帮助使用者从一个具有瑕疵的图像中转录文 本,也可从图形、图像和插图等方面为使用者提供更多见解内容。 Claude3.5Sonnet推出全新功能Artifacts。Artifacts拓展功能是用户与Caude的一种互动交互方式,该功能为用户提供一个可视化专用窗口。当用户要求Claude 3.5Sonnet生成代码、网页设计等方面时,其会为用户提供动态工作区,用户可以实时查看、编辑并完成Claude创作内容。Claude的这一预览功能象征着它从单纯的对话式人工智能跃升为一个协作式的工作环境,未来将为团队、组织赋能,为其提供安全的共享中心以整合他们的知识、文档与工作内容。 投资建议与投资标的 我们认为,Anthropic推出Claude3.5Sonnet有望加速AI相关应用落地,同时对于算力的需求也会随之大幅提升。 AI应用:建议关注中科创达(300496,买入)、虹软科技(688088,未评级)、金山办 公(688111,增持)、泛微网络(603039,买入)、新致软件(688590,未评级)、彩讯股份(300634,买入)、科大讯飞(002230,买入)、万兴科技(300624,未评级)等公司 AI算力:建议关注云赛智联(600602,未评级)、中科曙光(603019,买入)、海光信 息(688041,买入)、寒武纪-U(688256,未评级)、润泽科技(300442,未评级)、华铁应急(603300,买入)等公司 其他工具:星环科技-U(688031,未评级) 风险提示 技术落地不及预期;政策监管风险 浦俊懿021-63325888*6106 pujunyi@orientsec.com.cn 执业证书编号:S0860514050004 陈超021-63325888*3144 chenchao3@orientsec.com.cn 执业证书编号:S0860521050002 覃俊宁qinjunning@orientsec.com.cn 宋鑫宇songxinyu@orientsec.com.cn 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 Anthropic发布Claude3.5Sonnet,性能全面升级4 OpenAI模型进展放缓,Anthropic加大工具投入6 投资建议与投资标的7 风险提示7 图表目录 图1:Anthropic发布Claude3.5Sonnet4 图2:Claude3.5Sonnet性能全面升级4 图3:Claude3.5Sonnet在基准测试中表现优异4 图4:Claude3.5Sonnet多模态能力达到SOTA4 图5:Claude看图直接生成json文件5 图6:Claude可以生成PPT5 图7:通过描述创建SVG格式游戏角色并用Artifacts预览6 图8:通过描述把游戏角色放进网页场景中并预览6 Anthropic发布Claude3.5Sonnet,性能全面升级 6月21日,Anthropic发布了Claude3.5系列第一款产品Claude3.5Sonnet。Claude3.5Sonnet在性能方面对比Claude3Opus全面升级,并在多个模型指标中超越GPT-4o。Claude 3.5Sonnet在运行速度方面是Claude3Opus的两倍,成本仅为其五分之一,且定价与之相同皆为每百万输入token收费$3,每百万输出token收费$15,并具有200K令牌上下文窗口。用户现在可以在Claude.ai和ClaudeiOS应用程序上免费体验,如果订阅了ClaudePro和团队计划,则可以享受更高的速率;此外,还可以通过AnthropicAPI、AmazonBedrock和GoogleCloud的VertexAI使用。 图1:Anthropic发布Claude3.5Sonnet图2:Claude3.5Sonnet性能全面升级 数据来源:Anthropic,东方证券研究所数据来源:Anthropic,东方证券研究所 Claude3.5Sonnet在基准测试中表现优异,多方面力压GPT-4o。Claude3.5Sonnet在性能上对比Claude3系列有巨大提升,并为研究生水平推理(GPQA)、本科生水平知识(MMLU)、编码能力(HumanEval)等设定了全新的行业基准,AI往往在幽默感层面表现较差,而Claude3Sonnet在捕捉微妙差异、展现幽默以及执行复杂指令方面获得显著提升,可输出流畅自然且亲切的高质量内容,为目前最具人性且最强性能的AI模型。值得注意的是,Claude3.5Sonnet在内部编码评估中展示惊人能力,可解决64%的问题,对比过去产品Claude3Opus可解决38%问题有较大提升。 图3:Claude3.5Sonnet在基准测试中表现优异图4:Claude3.5Sonnet多模态能力达到SOTA 数据来源:Anthropic,东方证券研究所数据来源:Anthropic,东方证券研究所 Claude3.5Sonnet也是目前最强大的视觉模型。Claude3.5Sonnet在视觉能力各方面表现最为优异,在多模态任务评估中仅一项略逊于GPT-4o,其余各项如视觉数学推理、科学图解、图表问答和文档可视化问答皆力压其他模型。其视觉推理任务能力表现最为优异,如解释图表等,可帮助使用者从一个具有瑕疵的图像中转录文本,也可从图形、图像和插图等方面为使用者提供更多见解内容。 图5:Claude看图直接生成json文件图6:Claude可以生成PPT 数据来源:Anthropic,新智元,东方证券研究所数据来源:Anthropic,新智元,东方证券研究所 Claude3.5Sonnet推出全新功能Artifacts。Artifacts拓展功能是用户与Caude的一种互动交互方式,该功能为用户提供一个可视化专用窗口。当用户要求Claude3.5Sonnet生成代码、网页设计等方面时,其会为用户提供动态工作区,用户可以实时查看、编辑并完成Claude创作内容。这个功能的添加,大大增强了Claude在复杂项目中的可用性。用户可以参考软件开发的流程,将需求分解为多个步骤,更方便ClaudeSonnet进行「渐进式开发」和迭代。Claude的这一预览功能象征着它从单纯的对话式人工智能跃升为一个协作式的工作环境,未来将为团队、组织赋能,为其提供安全的共享中心以整合他们的知识、文档与工作内容。 图7:通过描述创建SVG格式游戏角色并用Artifacts预览图8:通过描述把游戏角色放进网页场景中并预览 数据来源:Anthropic,新智元,东方证券研究所数据来源:Anthropic,新智元,东方证券研究所 OpenAI模型进展放缓,Anthropic加大工具投入 OpenAI模型进展速度放缓,模型能力难以实现大跨越。OpenAI的GPT-4发布已经过去一年多,至今仍未发布全新一代的升级模型,GPT-4o和谷歌的Gemini1.5Pro相比于GPT-4的都只是小幅提升。由于当前模型架构的固化以及训练所需的巨大计算量,在没有重大研究突破的情况下,很难再次看到从GPT-3到GPT-4那样的飞跃。 模型之间能力差距逐步缩小,Anthropic发力生态系统构建。我们能够看到,近期各家厂商推出的旗舰级模型,互相之间的能力差距都非常小,从可用性上讲比较难以体现出较大差别。但OpenAI以其强大的知名度和微软背书,其客户数和收入都远远领先于其他的大模型竞品。据TheInformation报道,OpenAI在从23年12月开始的过去六个月里年化收入达到34亿美元,其中大部分收入来自OpenAI的订阅和API访问(32亿美元)。而Anthropic到2024年底的预计收入不到10亿美元。因此,Anthropic围绕着Claude加大了生态系统构建,从工具层面提高了投入,如实验性的引导AI,允许开发者「引导」模型的内部特性;集成使其模型能够在应用程序中执行操作;发布基于模型构建的工具,比如最新的Artifacts等。 我们认为,随着生成式AI与大模型的竞争进入新阶段,大模型厂商不仅需要继续拓展大模型的能力边界,如何从生态、工具等角度出发,培养用户心智与喜好,获取更多的回报会成为下一阶段的竞争重点。 投资建议与投资标的 我们认为,Anthropic推出Claude3.5Sonnet有望加速AI相关应用落地,同时对于算力的需求也会随之大幅提升。 AI应用:建议关注中科创达(300496,买入)、虹软科技(688088,未评级)、金山办公(688111,增持)、泛微网络(603039,买入)、新致软件(688590,未评级)、彩讯股份(300634,买入)、科大讯飞(002230,买入)、万兴科技(300624,未评级)等公司 AI算力:建议关注云赛智联(600602,未评级)、中科曙光(603019,买入)、海光信息(688041,买入)、寒武纪-U(688256,未评级)、润泽科技(300442,未评级)、华铁应急(603300,买入)等公司 其他工具:星环科技-U(688031,未评级) 风险提示 技术落地不及预期。AI应用落地需要大模型、深度学习、长文本、多模态等多种人工智能技术赋能,以完成特定场景下的任务。若未来相关技术演进速度不及预期,将影响模型应用商业化落地的节奏。 政策监管风险。目前有关于AIGC创作内容的版权及监管等方面的政策尚未明确,若未来相关政策对AIGC和大模型相关的应用监管力度加强,将会影响AIGC的应用推广。 分析师申明 每位负责撰写本研究报告全部或部分内容的研究分析师在此作以下声明: 分析师在本报告中对所提及的证券或发行人发表的任何建议和观点均准确地反映了其个人对该证券或发行人的看法和判断;分析师薪酬的任何组成部分无论是在过去、现在及将来,均与其在本研究报告中所表述的具体建议或观点无任何直接或间接的关系。 投资评级和相关定义 报告发布日后的12个月内行业或公司的涨跌幅相对同期相关证券市场代表性指数的涨跌幅为基准 (A股市场基准为沪深30