Kimi成为国产大模型曙光,带动产业链革新。2023年10月,由清华大学杨植麟及其团队“月之暗面”推出的Kimi标志了国产AI大模型的重要进步。 Kimi凭借其在处理长文本方面的卓越能力,能够处理高达20万字的输入,显示出其在无损阅读方面的巨大潜力。这一突破不仅提升了内容创作和整理的效率,还为小说、剧本创作等领域带来了深化和创新,同时在游戏互动、AI陪伴和专业领域任务执行等方面开辟了新的应用场景。 全球AI应用的增长普遍疲软,Kimi以其显著的用户增长和应用广度突围而出。从2023年10月到2024年3月,Kimi的日活用户从10万迅速增长至300多万,这一显著增长反映了Kimi在模型优化、人才扩展和用户吸引方面的成功策略。Kimi的成功不仅依赖于其技术优势,更在于其对用户体验的重视,包括通过数据驱动的持续产品优化、创新的分享机制以及对核心功能的精准打磨,这些因素共同提升了Kimi的市场竞争力。 Sora模型开创AI视频新纪元。OpenAI近期发布了其首款视频生成大模型Sora,标志着文生视频领域的一个重要突破。Sora拥有生成长达60秒、紧密贴合用户指令的视频的能力,这在视频内容的长度、多角度一致性以及对物理世界的理解方面展示了其显著优势。技术上,Sora采用了一种创新的方法,通过利用已知的图像片段(Patches)来推测接下来的片段,并将Transformer模型与Diffusion技术相结合,实现了复杂视频内容的高效生成。Sora的出现不仅代表了AI在视频生成领域的新里程碑,还对多模态大模型的发展产生了深远影响。随着这类模型对视频、图像、文本等不同类型数据处理能力的整合,对算力的需求也随之大幅提升。这一变化预示着未来在训练高效、功能强大的AI模型方面,将需要投入更多的计算资源。 投资建议:1)多模态大模型拉动全球算力需求快速增长,叠加美国将限制云厂商对华客户提供AI云服务,国产AI算力迎来发展机会,建议关注国产AI算力龙头公司海光信息;2)大模型能力快速提升,多模态将进一步扩大AI的应用范围,此外,随着AI大模型成本下降与技术发展,AI应用产业将快速进步,建议关注AI应用相关个股,例如金山办公、同花顺。 风险提示:宏观经济复苏不及预期;云厂商资本开支不及预期;市场竞争加剧;产品研发不及预期;国产AI算力芯片导入不及预期等。 国产大模型曙光Kimi带动产业链革新 月之暗面发布Kimi,成为国产大模型曙光 2023年10月,清华大学杨植麟及其AI团队“月之暗面”发布了Kimi,是国产大模型的代表作之一,拥有优秀的长文本处理能力,可处理20万汉字输入,得到业界高度关注。依赖于优秀的长文本处理能力,用户可在Kimi上传各种资料并进行整理,包括word、pdf、txt以及图片;此外,Kimi也支持访问互联网链接,读取文本信息并归纳总结。2024年3月18日,Kim公布了支持200万文字输入的内测邀请,测试者可使用Kimi获得200万字长度的无损阅读能力。 Kimi虽然参数量尚未公开,但其强大的性能已引起广泛关注。其显著优势在于: 1)高效处理长文本,可处理20万汉字的数据;2)改善用户体验、提升用户留存度。如提供个性化体验:了解用户偏好、兴趣和行为模式,提供定制化内容或服务,增强客户满意度和忠诚度;利用长文本理解能力,在多轮对话后也能准确回应客户需求,可构建连贯、有意义的长对话,提高交流自然性和效率。 图1:Kimi可以阅读英文论文并整理 图2:Kimi可以根据提示词生成宣传文本 国产大模型在算力受限的背景下能表现如此优秀,主要是因为Kimi实现了AI产品发展中三个关键的scaling要素:模型、人才和用户。 1)模型Scaling:Kimi通过持续优化其AI模型,不断增强模型的处理能力和应用范围,成功地提升了产品的核心竞争力。这种模型的scaling不仅涉及到算法的改进和优化,还包括对大数据的处理能力和学习效率的提升,确保模型能够处理更复杂的任务,满足更广泛的用户需求。 2)人才Scaling:注重人才的招聘和培养,扩展人才密度,这对快速推出产品至关重要。 3)用户Scaling:Kimi选择专注于C端市场,致力于开发能够覆盖广大用户需求的通用产品,而不是局限于某个B端的垂直领域。这种策略使Kimi能够吸引到足够大的用户规模,通过规模化的用户反馈进一步优化产品,形成了良好的用户增长和产品改进的正向循环。 Kimi突破AI应用现状,保持环比高速增长 全球AI应用增长均比较疲软。在对大约1万款AI产品进行统计分析后,我们得到了海外及国内AI应用的访问量数据: 海外:AI应用增速较低,大部分应用环比增长仅为个位数,其中ChatGPT月访问量达到16亿,环比增长了1.08%;Bing月访问量下降了7.87%,至13.4亿,日活略有下降;Google的Germini月访问量增加至3.26亿,主要系2月份谷歌将Bard更名为Gemini,并同步开放GeminiAdvanced订阅和上线GeminiApp版。 国内:2月份总体访问量环比下降约20%。主要是受到春节假期的影响,用户的互联网使用习惯可能发生了变化,导致访问量暂时下降。此外,这也说明了当前大部分AI产品尚未完全融入到用户的日常生活场景中。 图3:近期海外AI应用增长疲软,大部分应用日活、月活增速仅有个位数 Kimi访问量保持环比高速增长。在众多AI产品中,Kimi环比持续高增,日活从23年10月份的10万迅速提升至目前300多万,预计下月可能超过阿里、通义的千万用户量级。 图4:Kimi保持环比高增,并有望超越文心一言、通义千问 长文本处理能力,是人类与AI交流无损理解的基础。长文本能力是实现人类与AI之间无损理解的基础,它使AI可以更准确地理解人类的复杂、感性思维,从而在多种应用场景中更有效地服务于人类。 图5:长文本建模是自然语言处理(NLP)领域的一项重要技术 以Claude3的进化和其开发团队提供的Promptlibrary为例,我们可以看到AI开发者是如何通过精细化的提示库来指引用户以更高效、更精准的方式与AI进行交流。这不仅减少了沟通的冗余,也提高了交流的效率和效果,使得AI能够更好地服务于人类的需求。然而,目前市场上各种AI大模型在处理长文本方面的能力还存在限制,如Claude对文件大小的限制等。 图6:AI开发者通过精细化的提示库来指引用户以更高效、更精准的方式与AI进行交流 图7:目前市场上各种AI大模型在处理长文本方面的能力还存在限制 Kimi的长文本能力是解决复杂问题的关键,并可优化用户体验。1)解决复杂问题:长文本模型通过处理大量信息,特别适合执行如企业知识库整合等需要广泛知识和深入理解的任务。这使得AI能在更广泛的上下文中提供精确、全面的解决方案;2)模型性能提升:处理更长的文本能让AI模型捕获更深层次的语言特征和复杂关系,使模型在执行任务时更接近人类的思维方式;3)忠诚度与指令遵循:长文本模型必须准确保留原文意义(忠诚度)并能根据任务指令执行操作(指令遵循能力),确保其在处理复杂任务时的可靠性和有效性;4)用户体验优化和数据飞轮效应:通过优化用户体验和实施分享机制,长文本模型不仅促进用户增长,还通过用户生成数据进一步优化模型,形成数据飞轮效应。 图8:Kimi可以两分钟读完500份简历,筛选员工 图9:Kimi可以读取英伟达报告,并分析财报历史 Kimi打破竞争格局,带动产业链发展 联合技术壁垒和服务壁垒,Kimi有望重塑竞争格局 AI产品的竞争壁垒为技术壁垒、服务壁垒,除了提供较强的技术实力之外,满足用户需求并提供优质体验也非常重要,特别是未来AI产品性能可能趋同,因此短期内的市场颠覆能力成为关键竞争点。创新产品如Kimi有望重塑竞争格局,通过提供个性化体验和优越性能显示出巨大的发展潜力。 Kimi通过以下几个核心策略实现了区别于市场的独特定位和快速增长。 1)用户体验中心化:Kimi把用户体验作为产品开发和优化的核心,通过细致了解用户需求,提供流畅、直观的使用体验,提升用户满意度和忠诚度; 2)数据驱动的优化:利用用户行为数据,Kimi采用数据驱动的方法持续迭代产品功能,快速适应市场变化,保持技术和服务的领先优势; 3)创新的分享机制:引入分享功能增强用户互动,同时利用用户生成的数据和反馈优化模型,形成正向的数据循环,提高模型性能和用户体验。 4)专注核心功能优化:专注于提升核心功能如视频高清化等,满足用户特定需求,通过AI技术与用户体验的结合,打造差异化竞争优势。 5)避免过度扩张:Kimi选择专注于现有产品的持续优化,避免过度扩张产品线,以确保产品和服务的高质量标准。 Kimi为多个行业带来了潜在发展机遇 Kimi优秀的性能可以带动多个产业的发展。如: 阅读和剧本创作中的应用:Kimi的长文本处理能力在阅读和剧本创作领域展现出了深化内容与创新的潜力。它能够为小说和剧本等提供全书总结、剧本评估等高质量服务,这样不仅大幅提升了内容制作的效率,也极大丰富了用户的阅读体验。 游戏行业的互动升级:Kimi的长文本能力可用于生成复杂剧情和长篇人机对话,极大丰富了游戏的互动性和沉浸感。 此外,Kimi的长文本技术突破使得其应用场景从长文章分析扩展至AI陪伴和AI Agent,如扮演小说中的角色或完成专业领域的特定任务。这一变化为AI在娱乐、教育、专业服务等领域的深入应用开辟了新的可能性。 Kimi的发展吸引了多方企业的合作,涉及内容审核、数据训练和行业应用等多个环节。这些合作促进了AI技术的实际应用,同时为各合作方带来了增值机会。 Sora开创AI视频生成新纪元 OpenAI发布Sora大模型,革新文生视频技术 2024年2月16日,OpenAI推出文生视频大模型Sora,引发业界高度关注。该模型能根据提示词生成不同分辨率、时长和宽高比的视频,包括全高清视频,时长可达1分钟。Sora模型能够生成包含多个角色、特定类型运动和主体及背景精确细节的复杂场景。该模型不仅能理解用户在提示中所要求的内容,还能理解这些事物在现实世界中的存在方式。 图10:Sora根据提示词生成视频 图11:Sora根据提示词生成视频 Sora的重要意义在于它再次推动了AIGC在AI驱动内容创作方面的上限。在此之前,ChatGPT等文本类模型已经开始辅助内容创作,包括插图和画面的生成,甚至使用虚拟人制作短视频。而Sora则是一款专注于视频生成的大模型,通过输入文本或图片,以多种方式编辑视频,包括生成、连接和扩展,属于多模态大模型的范畴。这类模型在GPT等语言模型的基础上进行了延伸和拓展。 Sora模型:通过Patches和Scaling Transformers革新视频生成技术 1)多模态融合与Patches技术:OpenAI通过将视觉数据转换为Patches的方法,仿照语言模型中token的应用,实现了文本多模态的统一,涵盖了代码、数学和自然语言等多种形式。Patches作为一种高效且可扩展的表示方法,在生成视频和图像的模型训练中展现了其独特价值。 2)通过时空Patches高效生成视频:OpenAI创新性地开发了一套减少视觉数据维度的网络技术,这项技术可以把原始视频变成一个既在时间上也在空间上被压缩的潜在格式。Sora模型正是在这个压缩后的潜在空间中接受训练,从而能够生成新视频。为了将这些潜在的视频表示重新转化为清晰的图像,OpenAI还专门训练了一个解码器模型。 通过对输入视频进行压缩并将其分解为一系列的时空Patches,这些Patches便成了Transformer模型的输入单位。这种方法使得Sora模型能够处理不同分辨率、持续时间和宽高比的视觉内容。在生成视频时,OpenAI能够通过在特定的网格中排列这些随机初始化的Patches,从而有效控制生成视频的大小和形状。这一策略同样适用于图像处理,因为可以将图像看作是静态的单帧视频。 图12:将视频数据转