投资事件:2024年3月4日,Anthropic发布了Claude 3系列模型,包含Opus、Sonnet和Haiku,其中前两个版本的模型已经开放给用户使用。 Claude 3Opus在多项基准评测的结果超越了GPT-4,定价具有较高性价比。Opus在MMLU、GPQA、GSM8K等常见评价标准上的结果都优于GPT-4、Gemini 1.0 Ultra等模型。在可用性、准确性、长文本理解和以及能力上都有较大提升。Claude 3支持多模态输入,视觉能力支持处理多类型的复杂视觉信息。Opus定价为输入$15 / million tokens,输出$75 / million tokens,较GPT-4有更高性价比。 Claude 3各版本都有应用,其中Opus展现出了极强的多模态数据分析能力。在GDP数据分析的例子中,Opus展现了读折线图就能给出数据、对数据进行专业统计分析及撰写subagent提示并批量运行的能力,其可用性已经达到较高水平。较小规模的Sonnet模型也能够在上下文对话中保持理解与记忆,始终一致地回应用户的提问。 Anthtopic始终重视安全问题,采用设立宪法、AI对齐及安全评估约束等方式保证安全性。Anthropic始终将产品安全放在首位,通过为人工智能设立符合人类价值观的“宪法”、用AI进行价值观对齐反馈和制定安全评估框架等方法,打造出了企业级的安全人工智能产品。 投资建议:Claude 3的发布展现了基础模型层的又一突破,相比前代模型的各项能力都有跃升。模型展现出的强大分析能力能够满足企业用户一定需求,其更高的性价比也极具竞争力。同时公司始终重视模型安全问题,其CAI原则、AI对齐反馈和使用评估标准进行约束等方式对国内企业也有较强参考价值。建议关注国内基础模型层和安全层标的。 风险提示:相关技术落地不及预期,行业竞争加剧,政策风险,能耗过大风险,信息更新不及时等 Claude 3发布,功能强大超越GPT-4 Claude3共有三种版本模型,Opus能力最强 2024年3月4日,Anthropic发布了大模型Claude 3。该模型系列包括三个不同的版本(按功能升序排列):Claude 3 Haiku、Claude 3 Sonnet和Claude 3 Opus。其中Claude 3 Haiku还未发布,目前有159个国家的用户可使用后两个版本的模型。 图表1:Claude 3的三个版本模型 Opus版本多项基准评测结果超越GPT-4 Claude 3Opus在复杂任务上表现出了接近人类水平的理解力和流畅性。它在人工智能系统的大多数常见评估基准(包括MMLU、GPQA、GSM8K等)上优于GPT-4、Gemini 1.0 Ultra等模型。 所有版本的Claude 3都在分析和预测、细致内容创建、代码生成以及西班牙语、日语和法语等非英语对话上表现出了更强的能力。 图表2:Claude 3评测结果 Claude 3在人类偏好评测中比前代进步显著。这种评测方式是请各知识领域专家对不同模型给出的回应进行评测,并选择更加偏好的回答。从结果看,相比前代Claude 2,金融和医疗领域专家都对Claude 3 Sonnet版本模型表示了更强的偏好。 图表3:Claude 3在金融和医药行业的专家评估中超越前代 快速响应用户需求,速度大幅提升 Claude 3模型可以支持实时客户聊天、自动完成和数据提取任务,能够快速响应用户的需求。目前Haiku是市面上速度最快且最具成本效益的模型,可以在三秒内阅读arXiv上包含图表、图形信息和数据的研究论文(长度约10ktoken)。在发布后,Anthropic也预计模型性能将进一步提高。 对于绝大多数工作负载,Sonnet的速度是Claude 2和Claude 2.1的两倍,且智能水平更高。它擅长需要快速响应的任务,如知识检索或销售自动化等。Opus的速度与Claude 2和2.1相似,但智能水平更高。 拥有复杂视觉能力,可处理多类型视觉信息 Claude 3模型拥有复杂视觉能力,在部门版本模型表现中超越了GPT-V和Gemini。Claude 3可以处理广泛的视觉格式,包括照片、图表、图形和技术图纸。 Anthropic也向企业客户提供了这种新模式。部分客户的知识库中有多达50%的内容以PDF、流程图或演示幻灯片展示的,模型也能够对其进行处理。 图表4:Claude 3的视觉评测结果 提升可用性,减少错误拒绝率 以前的Claude模型经常做出不必要的拒绝,说明模型可能缺乏对上下文的理解。Claude3与前几代模型相比有了较大突破。Opus、Sonnet和Haiku在回答接近系统防护措施的提示时,拒绝的可能性大大降低,可用性得到提高。 图表5:Claude 3的错误拒绝率比前代大幅下降 大幅提升准确性,降低幻觉 针对复杂问题,Claude 3的表现比前代大幅提升。Anthropic选取了一些复杂的、事实性的问题(这些问题针对模型已知的弱点)对模型的准确性进行评估,并将模型的响应分类为正确答案、错误答案(或幻觉)和承认不确定性,即模型表示不知道答案而不是提供错误信息。 图表6:Claude 3与前代模型的回复对比 与Claude 2.1相比,Opus在这些具有挑战性的开放式问题上的准确性提高了一倍,同时错误率有所下降。 图表7:Claude 3在复杂问题的表现更好 强大的长文本处理和记忆能力 Claude 3系列模型将为用户提供20万token长度的上下文窗口。其实际能够处理超过100万token的输入,Anthropic可能会将这一能力提供给特定客户。 图表8:Claude3系列模型在更长的上下文中记忆性表达更好 Claude 3 Opus拥有极强的长文本记忆能力。Anthropic采用NIAH(Needle In A Haystack)测试对长文本记忆能力进行检验,将一个目标句子(“针”)插入到一个文档集合(“干草堆”)中,并提出问题来检索针中的事实。在这项测试中,Claude 3 Opus实现了近乎完美的回忆能力,准确率超过99%。 图表9:Claude 3在NIAH评测中的表现 在某些情况下,Claude甚至能够识别出评估本身的局限性。因为它认识到“针”的句子似乎是人为插入到原始文本中的。 图表10:Claude 3针对某一NIAH测试问题的完整回应 三版模型收费有差异性,性价比较高 Claude 3系列模型都能够支持200k的上下文,可供选择的价格区间非常广泛,且具有较高性价比。Opus版本模型相比GPT-4(输入价格$30/ million tokens,输出价格$60/ million tokens)和GPT-4-32k(输入价格$60/ million tokens,输出价格$120/ million tokens)仍具有较高性价比。 图表11:Claude 3系列模型定价 应用评测:Claude 3能够解决哪些问题? 经济数据分析:Opus拥有强大的读图能力、分析能力与问题分解能力 Opus能够读图并给出与图表对应的拟合数据。如在搜索引擎中搜索美国GDP,并将搜索结果截图作为模型提示,仅靠读图模型就能够给出图表曲线背后的数据。如果将模型给出的数据画图(右图蓝色线)与真实的GDP数据(右图红色线)进行比较,可以发现两线趋势非常接近。 图表12:Claude 3Opus读图并给出可能的拟合数据 Opus能够进一步对数据进行统计分析。如继续提示模型对以上数据拟合自回归模型并进行Monte Carlo模拟,并对未来的数据进行预测。模型也能够给出自回归的拟合结果,并完成模拟过程。 图表13:Claude 3Opus对GDP数据进行蒙特卡洛模拟 Opus还能自动将问题拆分为子问题,并为每个问题撰写subgent提示,最终并行地解决整个问题。如对于提示“我希望分析一下2020年到2030年世界GDP构成可能的变化。对于世界上最大的经济体,尽可能多地转录GDP数据,并基于所观察到的内容,使用合适的计量经济模型来预测未来十年。一旦你拥有了聚合数据,创建一个数据可视化图表,展示世界经济的构成在2020年到2030年间可能如何变化。使用子代理来并行化工作”,模型能够为每个subagent(即获取并分析每个国家的GDP数据)撰写出提示,并行地运行这些agent(下图左),并将结果汇总出图表(下图右),再给出对应的文字分析。 图表14:Claude 3Opus并行解决子问题 语言学习伙伴:Sonnet在多轮对话中回答风格一致并记忆内容 Sonnet能够理解用户的需求,并在多轮对话中保持回答的风格一致。 如英语母语者想要学习西班牙语,可以要求Sonnet将用户的西班牙语提示先用英文表达出来,再给出正确的西班牙语描述,并给出回应。在多轮对话中,Sonnet能够一直按照这样的规则进行回复。 图表15:Claude 3Sonnet扮演语言学习伙伴的角色 Sonnet能够对多轮对话内容进行总结。如继续提示模型对之前的对话内容撰写测试题,模型也能够给出相应的正确回应,这表明Sonnet能够正确记忆并理解多轮对话中的内容。 图表16:Claude 3 Sonnet能够记忆之前的对话 安全为先:对齐强大的Claude,Anthropic做了什么? Anthropic始终遵循打造安全的人工智能并可靠地进行部署的原则,重视人工智能的安全问题。在其官网首页中他们也强调了其研究和产品以安全为先。 图表17:Anthropic官网表示其研究和产品以安全为先 核心原则构建:使用AI进行反馈,设立“宪法”约束AI Anthropic的安全来源于其模型训练的思想— —宪法人工智能(Constitutional AI,CAI)。与OpenAI等公司单纯使用RLHF方法进行价值观对齐的思路不同,Anthropic通过为人工智能制定需要遵循的“宪法”对其进行约束。这种方式更符合直觉,随着模型规模越来越大和越来越“聪明”,这种约束可能有更好的效果和更高的性价比。 Claude 3在可用性、无害性上的提升就证明了这种路径的可行性。这种宪法的应用可以产生帕累托效应,比来自人类反馈的强化学习更有帮助,也更无害。 图表18:Anthropic的模型训练方法 制定AI安全级别评估框架,在安全和强大之间取舍 Anthropic通过制定安全评估框架指导模型开发工作。在2023年9月发布的RSP安全条款中,Anthropic定义了一个名为AI安全级别(ASL)的框架: ASL-1指的是不会造成有意义的灾难性风险的系统,例如2018年的LLM或只会下国际象棋的AI系统。 ASL-2是指显示出危险能力早期迹象的系统,例如能够给出如何制造生物武器的说明,但由于可靠性不足或未提供搜索引擎无法提供的信息,因此该信息尚无用处。目前的LLM大体处于这一区间。 ASL-3是指与非AI基准(例如搜索引擎或教科书)相比显着增加灾难性误用风险或显示低级自主能力的系统。 ASL-4及更高版本(ASL-5+)尚未定义,因为它距离现有系统太远,但可能会涉及灾难性误用潜力和自主性的定性升级。 图表19:RSP中定义的AI安全级别 Anthropic参照ASL系统在预防灾难性风险和提升模型能力之间进行取舍。如果他们的AI系统超出了遵守必要安全程序的能力,Anthropic可能会暂时暂停训练更强大的模型,并努力解决必要的安全问题。通过这种评级也能够在产品投放市场之前严格证明其安全性。 风险提示 技术落地不及预期:尽管人工智能技术取得了巨大进步,但在实际应用中仍存在一些难以克服的技术障碍。例如大模型虽然取得了显著进展,但在理解复杂语境和细微情感方面仍有限制。此外,一些先进的人工智能模型需要大量的数据和计算资源,这在实际应用中可能不切实际或成本过高。 行业竞争加剧:随着人工智能技术的普及,越来越多的企业和研究机构投入到这一领