行业研究|动态跟踪 看好(维持) Kimi支持200万字上下文,AI应用有望加速落地 计算机行业 国家/地区中国 行业计算机行业 报告发布日期2024年03月22日 核心观点 3月18日,月之暗面宣布旗下的智能助手Kimi的上下文长度突破到200万字。 2023年10月,月之暗面就发布了支持20万汉字上下文长度的智能助手Kimi,在当时就是全球市场上能产品化使用的大模型服务中最长的。现在Kimi的能力上限又提升了十倍,达到了国际领先的水平。目前全球最长上下文的模型是谷歌于2023年 2月推出的Gemini1.5Pro,最极限情况下能够达到1000万token,但是并没有开放使用,日常对外开放的仅有100万token长度。 上下文技术是大语言模型能力的核心之一,它决定了模型对信息的理解深度和广度。支持更长的上下文长度能够让模型在处理大量信息时都能保持较高的准确性,让模型的应用场景得到进一步拓宽,例如对完整代码库的分析理解、自主完成多步 骤复杂任务的智能体Agent、不会遗忘关键信息的终身助理、真正统一架构的多模态模型等。就好比是计算机的RAM,操作系统保留了所有应用程序的实时上下文,由于上下文长度充足,LLM可以像“推理计算机”一样,保留大量用户上下文。 大模型上下文长度拓展存在“不可能三角”:文本长度、注意力和算力。 Transformer架构依赖于自注意力机制来处理输入序列。随着序列长度的增加,自注意力层的计算复杂度呈二次方增长,其中n是序列长度。这意味着对于较长的序 列,模型需要进行大量的计算,这也对算力提出了更高的要求,从两个方面共同限制了大模型上下文长度的无限拓展。上下文文本越长,模型越难聚焦充分注意力,难以完整理解用户意图;注意力限制下,短文本无法完整解读复杂信息;处理长文本需要大量算力,从而提高了成本。按GPT-4Turbo目前API的输入输出价格来计算,要用满128k的长度进行一次输入输出的话,一次问答的价格超过30元。 随着大模型长文本技术不断深入,AI应用落地的曙光初现。目前业界已经逐步形成共识,即使是千亿参数的大模型也无法完全避免幻觉和胡说八道的问题。相比于短文本,长文本可以通过提供更多上下文信息和细节信息,来辅助模型判断语义,进 一步减少歧义,并且基于所提供事实基础上的归纳、推理也更加准确。长文本技术既可以解决大模型诞生初期被诟病的一些问题,增强一些功能,同时也是当前进一步推进产业和应用落地的一环关键技术。随着Kimi率先在国内突破长文本技术,AI相关的应用落地也有望进一步加速。目前月之暗面瞄准的是2C的赛道,未来在2B赛道中长文本能力更有广阔的施展空间。 算力需求预计也会迎来提升。考虑到Transformer本身架构因素,上下文长度的提升必然会带来算力消耗的提升,即使在业界不断优化的情况下,对于算力的需求仍会有较大程度的增长。随着Kimi带动的长文本技术逐步延展,我们认为各大模型厂商均会逐步开启对于长文本模型的训练和研究,对算力的需求将会进一步提升。 投资建议与投资标的 我们认为,大模型上下文长度持续拓展有望加速AI相关应用落地,同时对于算力的需求也会随之大幅提升。 AI应用:建议关注金山办公(688111,增持)、新致软件(688590,未评级)、科大讯 飞(002230,买入)、同花顺(300033,未评级)、彩讯股份(300634,未评级)、上海钢联(300226,增持)等公司 AI算力:建议关注中科曙光(603019,买入)、海光信息(688041,买入)、寒武纪- U(688256,未评级)、云赛智联(600602,未评级)、润泽科技(300442,未评级)、华铁应急(603300,买入)等公司 其他工具:星环科技-U(688031,未评级) 风险提示 技术落地不及预期;政策监管风险 浦俊懿021-63325888*6106 pujunyi@orientsec.com.cn 执业证书编号:S0860514050004 陈超021-63325888*3144 chenchao3@orientsec.com.cn 执业证书编号:S0860521050002 覃俊宁qinjunning@orientsec.com.cn 宋鑫宇songxinyu@orientsec.com.cn 有关分析师的申明,见本报告最后部分。其他重要信息披露见分析师申明之后部分,或请与您的投资代表联系。并请阅读本证券研究报告最后一页的免责申明。 目录 Kimi上下文长度再突破,达国际领先水平4 模型长上下文技术原理探索6 AI应用有望加速落地,算力需求也随之提升8 投资建议与投资标的10 风险提示10 图表目录 图1:Kimi支持200万字上下文4 图2:Gemini1.5Pro最长能支持1000万token4 图3:Kimi可以一次性读500个简历并分析5 图4:Kimi可以分析过往英伟达的财报5 图5:月之暗面发展历程6 图6:大模型长文本的“不可能三角”6 图7:全注意力和稀疏注意力图解(全注意力就是完整的图网络)7 图8:RoPE算法原理示意8 图9:随机位置编码原理示意8 图10:Character.AI提供数字智能体陪伴9 表1:全球大模型上下文长度持续突破5 Kimi上下文长度再突破,达国际领先水平 上下文技术是大语言模型能力的核心之一,它决定了模型对信息的理解深度和广度。大模型上下文是指模型在生成文本、回答问题或执行其他任务时,能够考虑并参照的前置文本的数量或范围。文本生成以token作为处理文本的单位,最大上下文长度则是prompt输入合计使用的token数量上限。支持更长的上下文长度能够让模型在处理大量信息时都能保持较高的准确性,让模型的应用场景得到进一步拓宽,例如对完整代码库的分析理解、自主完成多步骤复杂任务的智能体Agent、不会遗忘关键信息的终身助理、真正统一架构的多模态模型等。就好比是计算机的RAM,操作系统保留了所有应用程序的实时上下文,由于上下文长度充足,LLM可以像“推理计算机”一样,保留大量用户上下文。 3月18日,月之暗面宣布旗下的智能助手Kimi的上下文长度突破到200万字。2023年10月,月之暗面就发布了支持20万汉字上下文长度的智能助手Kimi,在当时就是全球市场上能产品化使用的大模型服务中最长的。而现在,Kimi的能力上限又提升了十倍,达到了国际领先的水平。目前全球最长上下文的模型是谷歌于2023年2月推出的Gemini1.5Pro,最极限情况下能够达到1000万token,但是并没有开放使用,日常对外开放的仅有100万token长度。 图1:Kimi支持200万字上下文图2:Gemini1.5Pro最长能支持1000万token 数据来源:Kimi,东方证券研究所数据来源:谷歌,东方证券研究所 表1:全球大模型上下文长度持续突破 厂商 模型名称 发布时间 上下文长度(token数) OpenAI GPT-3.5Turbo 2023年3月 4k OpenAI GPT-4 2023年3月 8k Anthropic Claude2.0 2023年5月 100k 百川智能 Baichuan2 2023年10月 192k 月之暗面 Kimi 2023年10月 20万汉字 OpenAI GPT-4Turbo 2023年11月 128k Anthropic Claude2.1 2023年11月 200k 零一万物 Yi-34B 2023年11月 200k 谷歌 Gemini1.5Pro 2024年2月 1M,最大支持10M Anthropic Claude3 2024年3月 200k,最大支持1M 月之暗面 Kimi 2024年3月 200万汉字 数据来源:各公司网站,公开新闻,东方证券研究所 更长的上下文能够支撑更广泛的应用场景。超长的无损上下文能力,让Kimi的智能搜索和指令循环能力得到了进一步提升。现在Kimi能够一口气精读500个甚至更多数量的文件,帮助用户快速 分析所有文件的内容,并且支持通过自然语言进行信息查询和筛选。或是把英伟达过去几年的完整财报一次性扔给Kimi,让它成为一位临时的英伟达财务研究专家,来分析总结英伟达历史上的重要发展节点。 图3:Kimi可以一次性读500个简历并分析图4:Kimi可以分析过往英伟达的财报 数据来源:Kimi,东方证券研究所数据来源:Kimi,东方证券研究所 月之暗面成立于2023年3月,由出身清华大学的核心团队领衔,成员曾参与多个重量级AI模型的研发,现在是国内大模型领域的头部企业之一。除了专注于语言文本模型外,月之暗面也在积 极布局多模态模型的研发,并预计在今年内推出相关产品。公司在多模态相关技术方面已有多项储备,包括基于对比学习的视觉预训练范式MoCo、高效视觉网络结构ShuffleNet等。 图5:月之暗面发展历程 数据来源:月之暗面,东方证券研究所绘制 模型长上下文技术原理探索 一般可以通过以下两种途径得到一个长上下文的大模型。一种是大模型在初始阶段被设置为长上下文,然后经过预训练,指令微调,对齐训练等方式得到一个长上下文大模型。另外一种方式是选择已经训练好的大模型,通过技术改造扩展其上下文长度,然后再进行微调训练得到长上下文模型,例如很多开发者基于开源的LLaMA模型,通过微调将上下文窗口从2k拓展到32k。 大模型上下文长度拓展存在“不可能三角”:文本长度、注意力和算力。Transformer架构依赖于自注意力机制来处理输入序列。随着序列长度的增加,自注意力层的计算复杂度呈二次方增长,其中n是序列长度。这意味着对于较长的序列,模型需要进行大量的计算,这也对算力提出了更高的要求,从两个方面共同限制了大模型上下文长度的无限拓展。上下文文本越长,模型越难聚焦充分注意力,难以完整理解用户意图;注意力限制下,短文本无法完整解读复杂信息;处理长文本需要大量算力,从而提高了成本。按GPT-4Turbo目前API的输入输出价格来计算,要用满128k的长度进行一次输入输出的话,一次问答的价格超过30元。 图6:大模型长文本的“不可能三角” 数据来源:东方证券研究所绘制 目前围绕模型长上下文技术主要有三种解决方案: 1>长文本切分:主要方法是将长文本数据切分为多个短文本处理。模型处理长文本prompt时,会先在数据库中对短文本进行检索,以此来获得多个短文本回答构成的长文本。每次只加载所需要的短文本片段,从而避开了模型无法一次读入整个长文本的问题。 2>重建Self-Attention机制:这是目前业界比较关注的方向,Transformer架构中的Self-Attention(自注意力)机制允许模型在处理序列的每个元素时,同时考虑序列中的所有其他元素。这种机制使得模型能够捕捉序列内部的复杂依赖关系,无论这些依赖关系的距离有多远。核心思想是通过计算序列中每个元素与其他所有元素之间的关联度(或称为注意力分数),从而动态地关注输入序列中最重要的部分。而对于注意力机制的优化,目前也有很多 不同的方法。 稀疏注意力:在计算注意力分数时仅考虑部分词元,让计算复杂度和上下文长度n的关系从二次方转为线性。典型的方法有滑动窗口注意力,即在每个词元周围采用固定大小的窗口,注意力每次仅聚焦于窗口中,然后窗口会不断向前滑动;还有BigBird注意力,结合全局、局部和随机机制来计算分数。 图7:全注意力和稀疏注意力图解(全注意力就是完整的图网络) 数据来源:谷歌,东方证券研究所 位置编码:位置编码用于向模型提供序列各元素的位置信息,原始的Transformer架构采用的是位置正弦编码,对于上下文窗口的扩展不具有健壮性,缺乏“外推”能力,在推理/微调过程中很难使用比训练时更大的上下文长度。通过对位置编码的调整,也能够让注意力的计算方式改变。目前行业内比较领先的算法是RoPE算法(旋转式位置编码),在对token进行编码的过程中,通过旋