您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国联证券]:计算机行业专题研究:Claude3大模型发布,人工智能发展持续演绎 - 发现报告
当前位置:首页/行业研究/报告详情/

计算机行业专题研究:Claude3大模型发布,人工智能发展持续演绎

信息技术2024-03-08黄楷、陈安宇国联证券乐***
计算机行业专题研究:Claude3大模型发布,人工智能发展持续演绎

│ 计算机 Claude3大模型发布,人工智能发展持续演绎 Anthropic推出新一代大模型,多项指标引领行业。 3月5日,Anthropic发布新一代AI大模型系列-Claude3。该系列模型包含三个,按能力排名从弱到强排名分别为:Claude3Haiku、Claude3Sonnet和Claude3Opus。Claude3Opus在多项评测基准中均超过了GPT-4和Gemini1.0Ultra,在多个领域中展现较强计算能力,推动人工智能大模型行业基准进一步提升。 Claude3模型不同版本应对不同运用场景。 Opus现阶段是Anthropic最智能的模型,在多项常见AI系统评测中均优于市场上其他模型。Opus对于复杂问题的理解和处理展现出了近乎人类的水平,引领了通用智能领域的最前沿。Haiku在智能领域里是最快以及最具成本效益的模型,在同等智能水平下,该模型更智能、快速、经济实惠。对于多数工作,Sonnet智能水平更高,处理工作速度比Claude2和Claude2.1快2倍以上,与同水平的模型相比,更加经济实惠、适合大规模部署场景。 多项测评表现优异,强信息追溯能力或展现自主意识。 Anthropic在法学院入学考试(LSAT)、多州律师考试(MBE)、美国数学竞赛2023年数学竞赛和研究生入学考试(GRE)普通考试中评估了Claude3系列模型,测试结果均明显优于其他模型。Claude3Opus不仅实现了近乎完美的寻找定位能力,超过了99%的准确率。在某些特定情况下,它甚至识别除了关于此前评估的局限性,意识到“针”语句(目标语句)是人为插入到原始文本中的。 强大的视觉能力与拟人化能力 Claude3模型具有与其他头部模型相媲美的复杂视觉功能。它可以处理一系列的视觉数据,包含照片、图表、图形、和技术图表。Anthropic表示,他们的一些客户50%以上的数据以不同的数据格式进行编程,例如PDF、流程图或演示幻灯片。Anthropic除了在写作、编码、长文档问答、非英语对话和指令遵循等核心任务取得较大改进。同时还使用模型在金融、法律、医学、STEM和哲学领域进行了测试,可以发现ClaudeSonnet在60%-80%的情况下更受青睐。 算力、模型、应用三条主线 相关公司包括:(1)国产算力基础设施:海光信息、寒武纪-U、中科曙光、浪潮信息、紫光股份、锐捷网络等;(2)AI模型商业化:百度、科大讯飞、商汤、拓尔思等;(3)AI应用:①音视频:万兴科技、海康威视、大华股份等;②图像:美图公司、虹软科技等;③办公:金山办公、福昕软件、泛微网络、用友网络等;④垂直领域:同花顺、恒生电子、宇信科技、中科软、卫宁健康、医渡科技、中科创达等。建议关注:中科曙光、浪潮信息、紫光股份、海康威视、金山办公、泛微网络、用友网络、恒生电子、宇信科技、卫宁健康。 风险提示:AI技术发展演进不及预期;商业化进程不及预期;法律政策监管风险;行业竞争加剧等。 证券研究报告 2024年03月08日 投资建议:强于大市(维持) 上次建议:强于大市 计算机 沪深300 20% 0% -20% -40% 2023/32023/72023/112024/3 相对大盘走势 作者 分析师:姜青山 执业证书编号:S0590523050001邮箱:jiangqs@glsc.com.cn 分析师:黄楷 执业证书编号:S0590522090001邮箱:huangk@glsc.com.cn 分析师:陈安宇 执业证书编号:S0590523080004邮箱:chenay@glsc.com.cn 相关报告 1、《计算机:深入推进数字经济创新发展,开展“人工智能+”行动》2024.03.05 2、《计算机:算力需求强劲,通用人工智能或将加速到来》2024.02.22 行业报告 行业专题研究 正文目录 1.Claude3系列模型多项指标引领行业3 1.1Cladue3系列模型多项指标超越竞品3 1.2强溯源能力或展现自主意识5 2.模型八大优势推动AI行业发展7 2.1逻辑推理能力展现强大优势7 2.2拟人化能力进一步提升9 3.投资建议:算力、模型、应用三条主线14 3.1国产算力基础设施:14 3.2模型商业化:14 3.3AI应用:14 4.风险提示15 图表目录 图表1:Claude3模型家族3 图表2:AI大模型多项评测对比4 图表3:Claude模型展现较强的视觉能力4 图表4:Claude新一代模型展现更少的拒绝回复5 图表5:Claude模型准确率进一步提升6 图表6:Claude3Opus模型强大召回能力6 图表7:Claude3模型对比7 图表8:Claude在推理、编码和问答环节与其他模型进行对比8 图表9:Claude3系列在标准化考试中对比测试结果8 图表10:Claude3视觉能力表现9 图表11:不正确拒绝(Wildchat无毒数据)10 图表12:正确拒绝(Wildchat有毒数据)10 图表13:不正确拒绝(XSTest)10 图表14:Claude2.1和Claude3如何响应良性指示10 图表15:两代模型对比(文本相关)11 图表16:两代模型对比(应用行业方面)11 图表17:指令遵循和格式化方面11 图表18:多语言环境下不同模型对比12 图表19:Claude3模型在不同语言环境下数学测试12 图表20:Claude3事实准确性图表12 图表21:Claude3Haiku在1M文本中丢失数据程度13 图表22:Claude3系列数据定位准确性13 图表23:Claude模型系列回答短文问题正确率13 图表24:Claude模型平均文本信息定位触及率13 图表25:文本长度增长下模型信息定位触及率14 1.Claude3系列模型多项指标引领行业 1.1Cladue3系列模型多项指标超越竞品 3月5日,Anthropic发布新一代AI大模型系列-Claude3。该系列模型包含三个,按能力排名从弱到强排名分别为:Claude3Haiku、Claude3Sonnet和Claude3Opus。Claude3Opus在多项评测基准中均超过了GPT-4和Gemini1.0Ultra,在多个领域中展现较强计算能力,从而推动了人工智能大模型行业标准进一步提升。 图表1:Claude3模型家族 资料来源:Anthropic官网,国联证券研究所 新智能行业标准 Opus现阶段是Anthropic最智能的模型,在多项常见AI系统评测中均优于市场上其他模型(如本科生水平专家知识(MMLU)、研究生水平专家推理(GPQA)、基础数学(GSM8K)等)。所有的Claude3模型展示了杰出的能力在分析预测、细节内容创作、代码生成和非英语语言翻译领域。Opus对于复杂问题的理解和处理展现出了近乎人类的水平,引领了通用智能领域的最前沿。 图表2:AI大模型多项评测对比 资料来源:Anthropic官网,国联证券研究所 几乎实时处理结果 Haiku在智能领域里是最快以及最具成本效益的模型,它可以在不到三秒内阅读完一篇在arXiv平台上包含密集图表与图形的文章。对于多数工作,Sonnet智能水平更高,处理工作速度比Claude2和Claude2.1快2倍以上。它擅长需要快速回应的任务,例如知识检索或销售自动化。Opus的处理速度与Claude2和2.1版本相似,但智能水平更高。 强大的视觉能力 Claude3模型具有与其他头部模型相媲美的复杂视觉功能。它可以处理一系列的视觉数据,包含照片、图表、图形、和技术图表。Anthropic表示,他们的一些客户50%以上的数据以不同的数据格式进行编程,例如PDF、流程图或演示幻灯片。 图表3:Claude模型展现较强的视觉能力 资料来源:Anthropic官网,国联证券研究所 1.2强溯源能力或展现自主意识 更少的拒绝回复 以前的Claude模型由于缺乏上下文语境的理解,经常做出不必要的拒绝。Anthropic在这领域取得了有意义的进展:与前几代模型相比,即使用户给出的提示接近系统的设定边界,Opus、Sonnet和Haiku拒绝回答的可能性明显降低。Claude3模型对于需求表现出更细致的理解,可以识别有害指示,并且降低了拒绝回答无害指示的频率。 图表4:Claude新一代模型展现更少的拒绝回复 资料来源:Anthropic官网,国联证券研究所 准确率提升 不同规模的企业依靠Anthropic公司的模型来为他们的客户提供服务,因此Anthropic的模型输出必须维持高精度。为了评估这一点,Anthropic使用了针对模型已知弱点的大量复杂事实问题,将答案分为正确答案、错误答案(或幻觉)和不确定性回答(模型不知道答案,而不是提供不正确信息)。与Claude2.1相比,Opus在这些具有挑战性的开放式问题上的准确性(或正确答案)提升了一倍,同时也减少了错误回答。除了产生更值得信赖的回复之外,Anthropic还将在Claude3模型中启用内容引用,以便模型可以精准定位参考材料中的语句来证实回答。 图表5:Claude模型准确率进一步提升 资料来源:Anthropic官网,国联证券研究所 长上下文和几乎完美的信息追溯能力 Claude3系列模型在发布初期提供200k上下文窗口。然而,所有三种模型都可以接收超过100万token输入,此提升会被提供给需增强处理能力的特定用户。为了有效地处理长上下文提示,模型需要强大的召回功能。NeedleInAHaystack(NIAH) (大海捞针)评估模型从大量数据中准确寻找信息的能力。Anthropic通过在每个指示中使用30个随机问题,进而在不同文档库进行测试,增强了该基准的稳健性。Claude3Opus不仅实现了近乎完美的寻找定位能力,超过了99%的准确率。但在某些特定情况下,它甚至识别除了关于此前评估的局限性,意识到“针”语句(目标语句)是人为插入到原始文本中的。 图表6:Claude3Opus模型强大召回能力 资料来源:Anthropic官网,国联证券研究所 模型细节 针对不同的应用场景,Anthropic公司推出了不同的大模型以满足不同客户的需求。Claude3Opus是现阶段公司最智能的模型,可在处理高度复杂问题上展现出市场最佳的处理能力。Claude3Sonnet在企业端数据量级处理上,将智能水平和处理速度达到了最佳的平衡点;与同水平的模型相比,更加经济实惠、适合大规模部署场 景。Claude3Haiku是最快的瞬时回应模型,在同等智能水平下,该模型更智能、快速、经济实惠。 Claude3OpusClaude3SonnetClaude3Haiku: 价格 输入(15美元/百万token)、输出(75美元/百万token) 输入(3美元/百万token)、输出(15美元/百万token) 输入(0.25美元/百万token)、输出(1.25美元/百万token) 文本长度:200K 文本长度:200K 文本长度:200K 应用场景: 任务自动化:能够在API和数据库之间规划和实施复杂的交付使用,支持交互式编程。 数据处理:可以在海量知识库中进行快速检索或使用RAG(检索增强生成)进行数据处理。 客户交互:即时、精准的客户支持和翻译服务。 研发&开发(R&D):研究整理、头脑风暴和假设生成、药物探索 销售:产品推荐、销售预测、目标定位。 内容管理:识别风险行为或客户需求。 策略:深度分析表格和图表、财务信息、市场趋势以及预测分析 高效省时任务:代码生成、质量控制、解析图片内容 降成本任务:最优化物流、库存管理、从非结构化数据中提取信息。 独特优势 智能水平高于市场现存所有模型。 与同水平的模型相比,更加经济实惠、适合大规模部署场景。 在同等智能水平下,该模型更智能、快速、经济实惠。 图表7:Claude3模型对比 资料来源:Anthropic官网,国联