您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国信证券]:人工智能周报(23年第47周):Claude 2.1发布,多款AI视频生成工具亮相,国内公司持续推进AI布局 - 发现报告
当前位置:首页/行业研究/报告详情/

人工智能周报(23年第47周):Claude 2.1发布,多款AI视频生成工具亮相,国内公司持续推进AI布局

信息技术2023-11-26张伦可国信证券梅***
人工智能周报(23年第47周):Claude 2.1发布,多款AI视频生成工具亮相,国内公司持续推进AI布局

人工智能动态:1)产品应用:OpenAI于11月22日向所有用户免费开放ChatGPTVoice;微软在Build2023开发者大会上宣布为WindowsTerminal应用增加AI聊天机器人功能;谷歌近日推出名为Lyria的AI音频模型,可以生成包含乐器和人声的音乐 ;Meta 11月19日为Facebook和Instagram推出了两款基于AI的图像编辑工具:“EmuEdit”和“Emu Video”;Anthropic11月22日推出了聊天机器人Claude2.1;Adobe完成对AI视频创新企业Rephrase.ai的收购,文本生成视频领域升温; StabilityAI11月22日推出StableVideoDiffusion,可以将图片转换为视频;字节跳动旗下飞书11月22日在北京举办发布会,正式推出了“飞书智能伙伴”和其他系列AI产品;百度称文心大模型将帮助重构广告系统,并在Q4带来数亿元增量收入;快手称“快意”大模型达到行业领先水平。2)底层技术:微软发布Orca2LLM,有70亿和130亿参数两个版本,性能明显优于同类尺寸的其他模型。3)行业政策:OpenAI和微软因版权问题再次被提起诉讼。 投资建议:11月初美债收益率出现了逆转,加息周期或宣告结束,投资人风险偏好提升;基本面角度看,海外以苹果/META/谷歌/TSLA为代表的大企业业绩稍逊预期,吸引力相对减弱,国内互联网公司三季报集中在11月中下旬发布,我们预计公司业绩分化明显,优质标的增长依旧亮眼,横向对比,国内互联网板块股票性价比凸显,我们的推荐顺序为: 1)一梯队:综合比较估值性价比和确定性,安全边际较高的核心大票腾讯控股、网易、美团; 2)二梯队:成长逻辑强,明年可期待因素多的百度集团; 3)三梯队:近期跌幅明显,有望实现超跌反弹的快手、金蝶国际、阿里巴巴和京东健康。 风险提示:政策风险,疫情反复的风险,短视频行业竞争格局恶化的风险,宏观经济下行导致广告大盘增速不及预期的风险,游戏公司新产品不能如期上线或者表现不及预期的风险等。 AI相关网站流量数据 图1:AI相关网站周访问量(百万) 图2:第一梯队AI相关网站周访问量变动(百万) 图3:第二梯队AI相关网站周访问量变动(百万) 图4:第三梯队AI相关网站周访问量变动(百万) 图5:新增聊天、教育类AI相关网站周访问量变动(百万) 人工智能动态:Claude 2.1发布,AI视频生成工具Emu Edit、Emu Video、Stable Video Diffusion等相继推出,国内公司推进AI布局 (一)产品应用 OpenAI于11月22日向所有用户免费开放ChatGPT Voice。ChatGPT Voice是基于ChatGPT的文本转语音功能,最初在今年9月推出,但之前仅对ChatGPTPlus订阅用户使用,现在所有免费用户也能体验这项服务。ChatGPT Voice利用神经网络模型,可以从文本生成类似人类的语音。ChatGPT用户只需在Android或iOS设备上打开应用程序设置,然后切换“耳机”图标,即可激活文本转语音功能。此外,ChatGPT Voice为用户提供了丰富的对话体验,其对话信息完全以语音形式输入输出。该功能还支持暂停、中断和更换音色等操作,并在对话结束后提供文本版,以供用户参考。 微软在Build2023开发者大会上宣布为WindowsTerminal应用增加AI聊天机器人功能。该功能可以推荐命令、解释错误,并协助用户进行后续操作,并对外开放,微软期望开源社区参与定义这款应用中的AI功能,并邀请开发者参与体验和构建过程。目前,TerminalChat功能仅在WindowsTerminalCanary版本中可用,而不包括在Windows Terminal的预览版或稳定版构建中。Windows TerminalCanary并不自带AI模型。用户需要在应用设置中手动添加AI服务的节点和密钥,才能启用这一功能。 图6:TerminalChat界面 谷歌近日推出名为Lyria的AI音频模型,可以生成包含乐器和人声的音乐。 Deepmind与YouTube合作 , 利用Lyria模型开发了音乐创作工具Dream Track,帮助视频创作者更高效地将创意转化为作品。Lyria模型具有细致的微调选项,允许用户精确控制音乐风格和表现方式,满足专业音乐创作需求的同时,也适合业余用户使用。YouTube已在其短视频功能“Shorts”中应用了Lyria模型,并集成在音乐创作工具DreamTrack中,用户可以使用这款工具生成多样化的配乐,甚至选择CharliePuth、CharliXCX、Sia等艺术家的音乐风格进行创作。此外,Lyria模型生成的所有内容都会加上SynthID水印标记。 图7:Lyria模型可以对生成的音乐进行细致的微调 Meta11月19日为Facebook和Instagram推出了两款基于AI的图像编辑工具:“EmuEdit”和“Emu Video”。主要特点和功能如下: (1)EmuEdit:①文字指令编辑:EmuEdit可以仅通过文字指令来准确编辑图像。 ②多功能性:它能进行区域和全局编辑、移除和添加背景、调整颜色、进行矢量图转换,以及进行图像构成元素的检测和分割。③视觉任务集成:将视觉任务集成为指令,从而在视频生成和编辑中提供更好的控制。④准确性:EmuEdit能够根据用户指令进行精确编辑,不会过度或不足地修改图像。⑤大规模数据集训练:使用了1000万个合成数据集训练,是同类中规模最大的,提高了编辑能力。 (2)EmuVideo:①文字转视频:一种简单高效的文字转视频生成方法,基于扩散模型和EmuEdit。②多种输入方式:可以处理多种输入,如文字、图像、图文组合等,并将用户提供的图像“动画化”。③分步生成过程:首先根据文字提示生成图像,然后基于文字和生成图像产生视频。④简化的模型结构:仅使用2个扩散模型,就能生成512x512分辨率、每秒16FPS、长4秒钟的视频。⑤高质量输出:据评估数据显示,EmuVideo生成的视频品质和对提示词的忠实度超过业内竞品。 Anthropic11月22日推出了其最新的聊天机器人Claude2.1。具体更新有: (1)Token处理能力提升:Claude2.1可以处理高达20万个Token的输入,比之前的Claude2.0的10万个Token处理能力翻了一倍,相当于处理大约15万字或500页文件的内容。 (2)准确度提高:Claude2.1的准确率比Claude2.0提高了一倍,特别是在处理法律文件、财务报表和技术规格等文档时更加精确,错误答案的比例降低了30%。 (3)系统预设提示词功能:新版本加入了系统预设提示词功能,用户可以预设模型的提示词,使模型以特定角色或语气回答问题。 (4)特定领域数据库整合:Claude2.1能够整合特定领域的数据库,补充通用模型可能存在的不足,尤其在特定专业领域的应用中表现突出。 (5)编程模式:引入了“编程模式”,这使得Claude 2.1能够将自然语言转换为结构化的输出,虽然这一功能目前仍处于开发初期。 (6)价格优势:Claude提供了免费聊天功能,并且其付费API的价格相较于GPT-4Turbo更为优惠,每100万个Token输入为8美元,输出为24美元。 图8:Claude2.1较Claude2.0准确率明显提升 Adobe完成对AI视频创新企业Rephrase.ai的收购,文本生成视频领域升温。 这次收购不仅是Adobe在AI领域的首次收购,也是它首次收购印度的创业公司。Rephrase.ai,总部设在印度技术枢纽班加罗尔,运用AI技术合成文本和用户头像,创造出带有用户形象的视频。这种技术广泛应用于商业活动,包括市场营销、客户交流和节日问候等方面。 StabilityAI 11月22日推出Stable Video Diffusion,可以将图片转换为视频。作为StabilityAI早先推出的StableDiffusion文字到图片模型的扩展,是市场上少见的视频生成AI模型之一。目前,Stable Video Diffusion处于StabilityAI的“研究预览”阶段,尚未公开可用。StableVideoDiffusion由两种模型构成,SVD和SVD-XT。SVD能将图片转换为14帧的576x1024分辨率视频;而SVD-XT使用相似架构,但帧数增至24帧。两者均能生成每秒3-30帧的视频。根据Stability AI发布的白皮书,SVD和SVD-XT最初在一个含数百万视频的大型数据集上训练,随后在规模较小的几十万至百万视频片段的数据集上进行微调。这些视频的来源大多是公开研究数据集,版权状况尚不明确。在StabilityAI博客上展示的样本表明,SVD和SVD-XT能制作出高质量的四秒视频,质量与Meta近期的视频生成模型、谷歌以及AI初创公司Runway和Pika Labs的产品相媲美。 字节跳动旗下飞书11月22日在北京举办发布会,正式推出了“飞书智能伙伴”和其他系列AI产品。飞书智能伙伴旨在促进企业工作流程的数字化和自动化。 主要特点和应用有:①开放的AI服务框架:允许企业根据不同业务场景选择合适的底层大模型。②多功能性:具有知识、记忆和主动性,能深入到业务中,支持内容创作、总结、数据分析、场景构建、系统搭建等多种业务场景。③实际应用:已在安克创新、元气森林等公司的销售、市场营销等多个工作场景中试用,并表现出色。 图9:飞书智能伙伴功能展示 百度称文心大模型将帮助重构广告系统,并在Q4带来数亿元增量收入。在百度的第三季度财务报告电话会议上,公司创始人、董事长兼CEO李彦宏宣布,百度正在利用文心大模型来改造其广告系统。这一改造包括生成式创意和定向等服务。 李彦宏预计,这些新措施将在第四季度为公司带来数亿人民币的增加收入。他还提到,在第三季度,采用AI新功能的广告客户平均实现了高个位数的转化率增长。作为例证,他指出,在采用新功能后,IT专业教育公司达内教育的转化率提高了23.3%,投资回报率(ROI)增长了22.7%。 快手称“快意”大模型达到行业领先水平。在2023年第三季度的业绩电话会议上,快手科技的创始人兼CEO程一笑宣布,公司在年初启动了全新的AI战略,并设定了清晰的战略目标。这一战略旨在确保快手在即将到来的技术革新中保持国内领先地位,同时结合并增强现有业务场景,通过自主的创新技术,争取在业务上取得领先。程一笑还提到,快手现有的语言大模型“快意”,包括130亿和660亿参数的模型,已在行业中处于领先地位。此外,公司已经开启了超过千亿参数规模的语言大模型和多模态大模型的研发工作。 (二)底层技术 微软发布Orca 2 LLM。Orca2提供了两种不同的规模版本:70亿和130亿参数。这个模型的一部分是基于Llama2LLM的参数,并且通过整合特制的高质量合成数据,以增强其准确性和输出质量。微软指出,Orca2是用一个扩展的、高度定制的合成数据集进行训练的。该模型支持多种推理技术,包括分步处理、回忆然后生成、回忆-原因-生成、提取-生成以及直接回答等。Orca2还能根据不同的任务选择最适合的解决方案策略。Orca2在多个方面表现出色,如痛苦理解、常识推理、多步推理、数学问题解决和阅读理解,,超过了Llama2和WizardLM等大型语言模型。微软表示,初步结果显示Orca2的性能明显优于同类尺寸的其他模型,并且与至少大10倍的模型相比,其性能相似或更好,展示了在较小模型上提升推理能力的巨大潜力。 图10:Orca2模型与其他大型语言模型的性能对比 (三)行业政策 OpenAI和微软因版权问题再次被提起诉讼。近日,一些非小说类作品的作者对OpenAI和微软提起诉讼,指责这两家公司在训练其大型语言模型时,未经授权使用了他们的书籍和学术期刊,且未提供任何形式的补偿。原告声称,他们投