您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[国信证券]:人工智能周报(24年第7周):OpenAI推出Sora模型一句话生成1分钟视频,亚马逊开发出有史以来最大的文本转语音模型 - 发现报告
当前位置:首页/行业研究/报告详情/

人工智能周报(24年第7周):OpenAI推出Sora模型一句话生成1分钟视频,亚马逊开发出有史以来最大的文本转语音模型

信息技术2024-02-20国信证券赵***
AI智能总结
查看更多
人工智能周报(24年第7周):OpenAI推出Sora模型一句话生成1分钟视频,亚马逊开发出有史以来最大的文本转语音模型

人工智能动态:1)产品应用:OpenAI推出Sora模型一句话生成1分钟视频,效果接近实拍。Sora模型可以根据用户输入的文本描述,生成一段视频内容,该模型可以深度模拟真实物理世界,标志着人工智能在理解真实世界场景并与之互动的能力方面实现了重大飞跃;谷歌Gemini1.5发布:能处理1小时视频、11小时音频、3万行代码、70万文字,能够更高效、更长时间地处理信息;英伟达推出RTX聊天机器人,可在RTX30和40GPU上免费使用,“ChatwithRTX”聊天机器人被设计为一个本地化系统,用户无需上网便可使用。2)底层技术:亚马逊开发出有史以来最大的文本转语音模型,该模型拥有最多的参数,并使用了最大的训练数据集,展现“涌现能力”;微软神经网络引擎ONNXRuntime获推1.17版更新,主要加入了网页端训练功能,首度为引擎推出了浏览器内推理功能,支持开发者使用浏览器训练模型。3)行业政策:成都出台促进人工智能产业发展“14条”,《政策措施》尤其支持智能算法创新转化,给予最高1000万元经费支持。 投资建议:美国CPI趋势上持续下降,海外降息在即。彭博一致性预测显示2024年美国CPI增长低于3%,CME利率期货市场预期5月前完成首次降息,2024年全年降息次数预期超过5次。市场风险偏好进一步提升,叠加AI等科技创新驱动,近期纳指与北美科技股表现强劲,指数持续创2023年以来新高。国内经济政策方面,近期地产政策持续松绑、货币利率政策进一步宽松,上周央行大幅降准50bp释放流动性,国内整体仍处于经济复苏阶段,政策支持持续推出,有望对需求持续形成支撑。综合海外利率流动性与国内经济政策边际优化,持续推荐增加恒生科技配置。 风险提示:政策风险,短视频行业竞争格局恶化的风险,宏观经济下行导致广告大盘增速不及预期的风险,游戏公司新产品不能如期上线或者表现不及预期的风险等。 AI相关网站流量数据 图1:AI相关网站周访问量(百万) 图2:第一梯队AI相关网站周访问量变动(百万) 图3:第二梯队AI相关网站周访问量变动(百万) 图4:第三梯队AI相关网站周访问量变动(百万) 图5:新增聊天、教育类AI相关网站周访问量变动(百万) 人工智能动态:OpenAI推出Sora模型一句话生成1分钟视频,亚马逊开发出有史以来最大的文本转语音模型 (一)产品应用 OpenAI推出Sora模型一句话生成1分钟视频,效果接近实拍。OpenAI近日发布了Sora模型,可以根据用户输入的文本描述,生成一段视频内容。该模型可以深度模拟真实物理世界,标志着人工智能在理解真实世界场景并与之互动的能力方面实现了重大飞跃。Sora会严格根据用户输入的提示词,可以制作长达一分钟的视频,保持较高的视觉质量。对于任何需要制作视频的艺术家、电影制片人或学生来说,这都带来了无限可能。OpenAI表示目前已交由Team Red(网络安全演习中扮演敌人或竞争对手角色的群体)测试Sora,评估潜在的危害或风险。 谷歌Gemini1.5发布:能处理1小时视频、11小时音频、3万行代码、70万文字。谷歌近日发布新闻稿,宣布推出全新的Gemini1.5AI模型,标志着该公司的人工智能技术取得了重大飞跃。谷歌表示相比较前代产品Gemini1.0Ultra,1.5新模型在多个方面都取得了长足进步,能够更高效、更长时间地处理信息。 在推出Gemini1.5的同时,谷歌继续将安全性和人工智能模型的快速发展放在首位。根据皮查伊的说法,Gemini1.5 Pro可达到与1.0 Ultra模型相当的质量,同时使用更少的计算能力,因此效率更高。 英伟达推出RTX聊天机器人,可在RTX 30和40 GPU上免费使用。英伟达今天发布“ChatwithRTX”(与RTX聊天)应用程序,这是一款适用于WindowsPC的聊天机器人,由TensorRT-LLM提供支持。“ChatwithRTX”聊天机器人被设计为一个本地化系统,用户无需上网便可使用,所有具有至少8 GB显存的GeForceRTX30和40GPU都支持该应用程序。ChatwithRTX支持多种文件格式,包括文本、pdf、doc/docx和xml。只需将应用程序指向包含文件的文件夹,它就会在几秒钟内将它们加载到库中。此外,用户还可以提供YouTube播放列表的URL,该应用程序将加载播放列表中视频的转录,使用户能够查询它们涵盖的内容。 (二)底层技术 亚马逊开发出有史以来最大的文本转语音模型,展现“涌现能力”。亚马逊人工智能研究团队宣布开发了一个据称是史上最大的文本转语音模型,该模型拥有最多的参数,并使用了最大的训练数据集。研究人员已经在arXiv预印本服务器上发表了一篇论文,详细描述了模型的开发和训练过程。研究团队表示,出于对潜在滥用风险的担忧,BASETTS将不会向公众开放,他们计划将其作为学习应用,并期望将学到的知识应用于改善文本转语音应用的整体音质。 图6:模型的开发和训练过程 微软神经网络引擎ONNXRuntime获推1.17版更新,支持开发者使用浏览器训练模型。据微软官方新闻稿,微软日前为旗下神经网络推理引擎“ONNXRuntime”推出了1.17版本,主要加入了网页端训练功能,允许开发者在浏览器中训练模型。据介绍,微软在ONNXRuntime 1.8版本中,首度为引擎推出了浏览器内推理功能,该功能利用WebGL和WebGPU进行推理,允许开发者调用浏览器跨平台部署机器学习模型 。 微软提到 , 相关基于浏览器的网页训练功能主要由WebAssembly和JavaScript API两部分组成,其中WebAssembly用于转换代码,JavaScript API用于管理WebAssembly与缓冲区转换过程。 图7:网络端训练功能 (三)行业政策 日本今年将推动AI监管立法,目标解决虚假信息和侵权等问题。据《日经新闻》周四报道,日本执政党将提议政府在2024年内出台一项监管生成人工智能(AI)技术的新法律。为了解决围绕AI的虚假信息和侵权等问题,日本自民党AI项目团队将为基础模型开发商(OpenAI等)起草初步规则,包括刑事法规。 (四)重点事件预告 2月27日-2月29日:第五届计算机科学、工程和教育国际会议(CSEE2024) 投资建议 美国CPI趋势上持续下降,海外降息在即。彭博一致性预测显示2024年美国CPI增长低于3%,CME利率期货市场预期5月前完成首次降息,2024年全年降息次数预期超过5次。市场风险偏好进一步提升,叠加AI等科技创新驱动,近期纳指与北美科技股表现强劲,指数持续创2023年以来新高。国内经济政策方面,近期地产政策持续松绑、货币利率政策进一步宽松,上周央行大幅降准50bp释放流动性,国内整体仍处于经济复苏阶段,政策支持持续推出,有望对需求持续形成支撑。 综合海外利率流动性与国内经济政策边际优化,持续推荐增加恒生科技配置。 表1:相关公司盈利预测及估值 风险提示 政策风险,短视频行业竞争格局恶化的风险,宏观经济下行导致广告大盘增速不及预期的风险,游戏公司新产品不能如期上线或者表现不及预期的风险等。 免责声明