OpenAI发布首个视频模型Sora,可以根据用户输入的文本生成长达一分钟的高清视频。Sora生成的视频可具有多个角色,特定类型的运动及主体和背景的准确细节的复杂场景。通过让模型一次性预测多帧画面,该模型可以确保被摄主体即使短暂离开镜头也可以保持不变,从而在单个生成的视频中创造多个分镜,并准确的保留角色和视觉风格。此外,Sora还可以根据现有的静态图像生成视频,并对图像内容进行动画处理;提取现有视频,并对其进行扩展或填充缺失的帧。 谷歌推出大模型Gemini 1.5,性能显著增强。Gemini 1.5建立在谷歌对Transformer和MoE架构的研究上,传统的Transformer作为一个大型神经网络,MoE模型则被分为更小的专家神经网络。根据给定输入的类型,MoE模型将选择性地仅激活其神经网络中最相关的专家路径。这种专业化极大地提高了模型的效率。性能方面,Gemini1.5可持续运行多达100万个tokens,该模型可以一次性处理处理大量信息,包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。 投资建议:人工智能新一轮十年级的技术和产业革命大幕已经拉开,短期调整并不影响产业的长期投资机会,当前海外已经开始进入商业落地阶段,ChatGPT、Midjourney等现象级爆品出现,微软、Adobe、Salesforce、Zoom等软件巨头亦纷纷推出商业化产品,静待数据的持续验证;国内短期看算力最确定,模型训练拉动训练算力需求,未来应用大规模兴起亦会拉动推理算力需求。大模型仍处于群雄逐鹿、快速迭代阶段,未来空间大且会格局收敛,应用端长期空间最大,厂商百花齐放。 算力:服务器建议关注浪潮信息、中科曙光、紫光股份等,芯片建议关注英伟达、寒武纪、海光信息、龙芯中科等; 模型:国内建议关注科大讯飞、百度、商汤、三六零、格灵深瞳、云从科技、云天励飞等;海外建议关注微软、Meta、谷歌、特斯拉等; 生态链:数据建议关注星环科技、海天瑞声等,安全建议关注深信服、启明星辰、安恒信息、天融信、绿盟科技、迪普科技、安博通、奇安信、永信至诚、美亚柏科等; 应用:生产力工具建议关注金山办公、万兴科技、广联达、中望软件、彩讯股份、福昕软件等;ERP等办公场景建议关注金蝶国际、明源云、鼎捷软件、用友网络、致远互联等;金融场景建议关注恒生电子、同花顺、中科软、宇信科技、百融云等;汽车场景建议关注中科创达、德赛西威、经纬恒润、万集科技等;医疗场景建议关注卫宁健康、创业慧康、嘉和美康、医渡科技、鹰瞳科技等;其他建议关注焦点科技、中科星图、航天宏图、拓尔思、佳发教育、神思电子等。 风险提示:AI技术落地不及预期、产品市场竞争加剧、数据更新不及时等 重点标的公司跟踪 市场整体涨跌幅情况 近两周涨跌幅情况:近两周【上证综指】涨跌幅6.06%,【沪深300】涨跌幅5.14%,【深证成指】涨跌幅10.75%,【创业板指】涨跌幅10.51%,【计算机(申万)】涨跌幅13.25%。 年初至今涨跌幅情况:年初至今【上证综指】涨跌幅-3.67%,【沪深300】涨跌幅-1.93%,【深证成指】涨跌幅-7.39%,【创业板指】涨跌幅-8.7%,【计算机(申万)】涨跌幅-22.39%。 图表1:市场涨跌幅情况 人工智能重点关注公司涨跌幅情况 图表2:重点关注人工智能股票池涨跌幅情况 代表性AI产品数据跟踪 ChatGPT月度访问量1.6B,与上月持平 2024年1月,ChatGPT月度访问量为16亿次,与上月持平。 图表3:ChatGPT月度访问量(次) Claude.ai月度访问量为1 9.8M 次 Claude是由人工智能初创公司Anthropic发布的一款聊天机器人。2024年1月,Claude.ai网站访问量为1 9.8M ,热度逐渐下降。 图表4:claude.ai月度访问量(次) Pi.ai月度访问量达 4.0M 次 Pi是由人工智能初创公司inflectionAI发布的聊天机器人。2024年1月,pi.ai网站访问量达4 .0M 。 图表5:Pi.ai月度访问量(次) Character.ai月度访问量上升 Character.ai是由谷歌对话编程语言模型(LaMDA)的前开发者Noam Shazeer和Daniel De Freitas共同开发的一款对话程序。2024年1月,character.ai网站访问量上升至1 80.8M 。 图表6:Character.ai月度访问量(次) Perplexity.ai月度访问量基本稳定 Perplexity是一个具有人工智能聊天机器人界面的初创搜索引擎。2024年1月,perplexity.ai访问量较上月增长了30万次。 图表7:Perplexity.ai访问量(次) Bing.com月度访问量增至14亿次 2024年1月,搜索引擎网站bing.com访问量增至14亿次。 图表8:Bing.com月度访问量(次) Google.bard.com月度访问量小幅下降 2024年1月,Google对话网站google.bard.com访问量为 330.9M 次,较2023年12月有所下降。 图表9:Bard月度访问量(次) AI领域投融资事件跟踪 AI医疗保健初创公司Ambience完成7000万美元B轮融资 Ambience完成了7000万美元的B轮投资,用于扩展为医疗保健组织设计的人工智能操作系统。盖茨融资由kleiner Perkins和OpenAI初创基金领投。 Ambience提供了一套AI工具,涵盖患者从入院诊断到缴费的全流程,旨在自动化耗时的管理工作,助力医生提高护理诊疗质量。Ambience表示,使用其平台的卫生系统将平均缩短78%的文档时间,提高记录的准确性,并实现超过500%的投资回报。 新闻链接: Clarity获1600万美元种子轮融资,利用AI进行深度伪造检测 Clarity完成了1600万美元的种子轮融资,由Walden Catalyst Ventures和Bessemer Venture Partners共同领投,Secret Chord Ventures,Ascend Ventures和Flying Fish Partners参投。 Clarity成立于2022年,目的是发现人工智能操纵的媒体。最初该公司通过订阅制和即用即付的方式为媒体客户提供服务,现将业务扩展至身份验证提供商。Clarity构建了专门用于深度伪造监测的人工智能模型。 新闻链接: detection/?guccounter=1&guce_referrer=aHR0cHM6Ly9haS1ib3QuY 24v&guce_referrer_sig=AQAAAHsmMm4GXyOgU4gKJdU5SSEslvgt qe9t8KWYnUxB626ONQyQqR7DRPx6oJdmFTD- yithV5yXZQICNpcu0rECVr1Po9Y9dO1P_GWL-dDQKQKVF- J3jn6Gjw9 AIGPU云计算平台Lambda获3.2亿美元C轮融资 训练和部署人工智能模型的按需公有云公司Lambda获3.2亿美元C轮融资,目前公司估值达15亿美元,本轮融资由US Innovative Technology领投,新投资者B Capital、SK Telecom以及现有投资者Crescent Cove、Mercato Partners、1517 Fund、Bloomberg Beta和Gradient Ventures等参与。 Lambda成立于2012年,为寻求训练AI模型的公司提供云、本地和咨询服务。该公司于2017年开始销售AI基础设施。目前,Lambda的平台可以访问NVIDIA公司的大型图形处理单元集群,使客户能够训练和部署人工智能模型。 新闻链接: 海内外AI公司新品追踪 谷歌发布Gemini1.5,将上下文窗口长度扩展到100万个tokens 2024年2月15日,谷歌发布Gemini 1.5,显著增强了性能。该模型在长语境理解方面取得突破,能够显著增加模型可处理的信息量,即持续运行多达100万个tokens,远超Gemini 1.0最初的3.2万个tokens,实现目前大型基础模型中最长的上下文窗口。这表示Gemini 1.5可以一次处理大量信息,包括1小时的视频、11小时的音频、超过3万行代码或超过70万字的代码库。 Gemini1.5建立在谷歌对Transformer和MoE架构的研究上,传统的Transformer作为一个大型神经网络,MoE模型则被分为更小的专家神经网络。根据给定输入的类型,MoE模型将选择性地仅激活其神经网络中最相关的专家路径。这种专业化极大地提高了模型的效率。 新闻链接: OpenAI首个视频生成模型Sora发布,可生成一分钟的高清视频 2024年2月16日,OpenAI发布Sora模型,可以根据用户输入的文本描述生成一段视频内容。该模型能够生成具有多个角色、特定类型的运动以及主体和背景的准确细节的复杂场景。通过让模型一次性预测多帧画面,Sora可以确保被摄主体即使短暂离开镜头也可以保持不变,从而在单个生成的视频中创造多个分镜,并准确的保留角色和视觉风格。 Sora是一种扩散模型,它从一个类似雪花杂讯的视频开始生成视频,然后通过多步骤去除噪音,逐渐转换为结果视频。该模型建立在过去OpenAI对DALL-E和GPT模型的研究基础之上,它使用DALL-E3的字幕重配技术(recaptioning technique),为视觉训练数据生成高度描述性的字幕,从而使该模型在生成的视频中更准确的遵循用户文字说明。 除了能够仅根据文字说明生成视频外,Sora还可以根据现有的静态图像生成视频,并对图像内容进行动画处理。该模型还能提取现有视频,并对其进行扩展或填充缺失的帧。 新闻链接: Meta发布开源模型CodeLlama70B Meta正式宣布推出全新开源大模型Code Llama 70B。Code Llama70B在HumanEval基准测试中的准确率达到了53%,超过了GPT-3.5的48.1%,并且接近OpenAI的一篇论文(PDF)报告的GPT-4的67%,是目前评分最高的开源大模型。Code Llama以Llama 2为基础,可以帮助开发者根据提示创建代码,并调试人工编写的代码。据Meta表示,Code Llama 70B可以处理更多的内容,更好的帮助开发者处理编程时遇到的问题。 Code Llama70B有三个版本的代码生成器,仍然是免费的,无论是研究还是商业用途。这个大型模型是在1TB的代码和与代码相关的数据上进行训练的。它托管在代码仓库Hugging Face上,该仓库提供了运行AI模型的GPU的访问。 新闻链接: Meta发布视频预测V-JEPA模型 2月17日,Meta发布了视频预测模型V-JEPA。相关JEPA架构及I-JEPA / V-JPA模型主打“预测能力”,号称可以以“人类理解”的方式,利用抽象性高效预测生成图片/视频中被遮蔽的部分。研究人员使用一系列经过遮蔽处理的特定视频训练I-JEPA / V-JEPA模型,研究人员要求模型利用“抽象方式”填充视频中缺失的内容,从而让模型在填充间学习场景,进一步预测未来的事件或动作,进而达到对世界更深层次的理解。 这种训练方法能够让模型专注于影片的高层次概念,而“不会钻牛角尖处理下游任务不重要的细节”,研究人员举例“人类观看内含树木的影片时,不会特别关心树叶的运动方式”,因此采用这种抽象概念的模型,相对于业界竞品效率更佳。 除此之外,V-JEPA采用一种名为“Frozen Evaluations”的设计结构,即“模型在预训练之后,核心部分不会再改变”,因此只需要在模型之上添加小型专门层即可适应新任务,具有更高普适性。 新闻链接: 重点上市公司公告 泛微网络:以集中竞