您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[西部证券]:AI行业跟踪43期:OpenAI发布“Projects”功能,谷歌推出Gemini+2.0 - 发现报告
当前位置:首页/行业研究/报告详情/

AI行业跟踪43期:OpenAI发布“Projects”功能,谷歌推出Gemini+2.0

信息技术2024-12-16西部证券任***
AI智能总结
查看更多
AI行业跟踪43期:OpenAI发布“Projects”功能,谷歌推出Gemini+2.0

OpenAI发布“Projects”功能,谷歌推出Gemini2.0 AI行业跟踪43期(20241209-20241213) 核心结论分析师 陈彤S0800522100004 行业要闻跟踪 证券研究报告 行业周报|通信 2024年12月16日 OpenAI发布“Projects”功能,谷歌推出Gemini2.0。1)OpenAI推出ProjectsInChatGPT:该服务可以将ChatGPT的各种功能整合至一处,便于用户创建并 18859272982 chentong@research.xbmail.com.cn 联系人 管理各类项目,它不仅支持Canvas界面,还能通过ChatGPTSearch轻松接入 互联网资源。ProjectsInChatGPT上下文管理、对话式项目管理、信息整合和检索上创新,提高个人项目及队协作效率。2)谷歌推出Gemini2.0:Gemini2.0亮点于性能提升、Agent功能强大、支持多模态输出与原生工具调用。速度方面,Gemini2.0是前代Gemini1.5Pro的两倍,多模态方面也有出色表现,其对文本、代码、视频、空间的理解和推理能力全面提升。Agent方面,推出ProjectAstra(通用AI助手)、ProjectMariner(浏览器中的人类-代理交互)和Jules(AI驱动的代码代理)等智能体应用。多模态输出方面Gemini2.0可以直接生成像与文本混合的内容,以及原生生成可控的多语言文本转语音音频。同时,Gemini2.0可操控人形机器人执行任务,打开AgenticAI未来想象空间。 量子位发布《2024年AI行业发展趋势》,多维度前瞻AI发展。技术视角,大模架构创新推动算力突破与AGI进展,虚拟与现实智能融合加速。产品视角 AI应用细分与创新,智能助手、AI搜索和多模态交互引领新商业模式。行业视角,AI技术的渗透与产业变革,智能驾驶、教育、医疗和投融资的快速发展。行情顾 2024年12月09日-2024年12月13日,我们构建的西部AI股票池中,其中 75家A股公司整体周平涨幅1.0%,60家美股公司整体周平跌幅2.0%。A股公司中,算力租赁、液冷散热、AI应用板上涨幅度最大,分别上涨6.0%、5.7%、1.4%。美股公司中,光模、高速serdes、数字巨头板涨幅最大,分别上涨6.8%、3.1%、2.3%。根据西部通信股票池,A股市中本周涨幅居前十的个股分别是润泽科技(+41.5%)、掌阅科技(+29.6%)、申菱环境(+17.5%)、高澜股份(+14.0%)、恒润股份(+12.4%)、浙文互联(+10.8%)、沃尔核材 (+8.6%)、兆龙互连(+8.6%)、同飞股份(+8.1%)、罗博特科(+7.6%)。美股市中本周涨幅居前五的个股分别是谷歌A(+9.9%)、Sprinklr(+5.5%)、财捷(+4.0%)、天睿(+3.0%)、瞻博网络(+2.1%)。 投资建议:AIGC和数字中共振,算力托底。建议重点关注AI算力硬件,关注光模(中际旭创、天孚通信、源杰科技等);散热领域(英维克)及ICT设 备商等。 风险提示:技术落不及预期、硬件设备市接度不及预期、监管政策风险 张璟 17521789238 zhangjing@research.xbmail.com.cn 相关研究 通信:AIforScience潜力大,DeepMind提出相关生产函数模—AI行业跟踪42期 (20241125-20241129)2024-12-02 通信:昆仑万维进军语音大模赛道,英伟达发布FY25Q3财报—AI行业跟踪41期 (20241118-20241122)2024-11-24 通信:ScalingLaws撞墙引发热议,百度发布两项AI新技术—AI行业跟踪40期 (20241111-20241115)2024-11-18 索引 内容目录 一、AI行业重点事件点评3 1.1OpenAI发布“Projects”功能,谷歌推出Gemini2.03 1.2《2024年度AI十大趋势报告》发布,多维度前瞻AI发展5 二、AI行业动态一览6 2.1国外行业动态6 2.2国内行业动态7 三、AI行情回顾:A股算力租赁与液冷散热引领板块动向,美股板块分化8 四、投资建议:持续关注AI应用和算力基础设施9 五、风险提示9 图表目录 图1:Gemin2.0的机器人代理,让人形机器人叠积木5 图2:A股AI行业细分板块周涨跌幅对比(12.09-12.13)8 图3:美股AI行业细分板块周涨跌幅对比(12.09-12.13)8 表1:Projects功能亮点与创新3 表1:AI发展趋势前瞻5 一、AI行业重点事件点评 1.1OpenAI发布“Projects”功能,谷歌推出Gemini2.0 OpenAI推出ProjectsInChatGPT 自美国当地时间12月5日起,OpenAI已相继推出满血版o1模型、强化微调技术、视频生成工具Sora、交互式界面Canvas、高级语音视觉功能,以及如何在iPhone或Mac上的Siri中以多种方式集成ChatGPT。12月14日,OpenAI推出ProjectsInChatGPT, 并称其为今年发布的最重要的人工智能功能之一,该服务可以将ChatGPT的各种功能整合至一处,便于用户创建并管理各类项目,它不仅支持Canvas界面,还能通过ChatGPT Search轻松接入互联网资源。 ProjectsInChatGPT在上下文管理、对话式项目管理、信息整合和检索上创新,提高个人项目及团队协作效率。1)在“项目”中,用户可以充分利用ChatGPT的所有功能,包 括SearchGPT、Canvas以及编码等。2)在创建一个项目的过程中,用户可以在一个集中化的界面内设定标题、自定义文件夹的颜色、上传与项目相关的文件,并编写说明来指导ChatGPT如何最高效地协助用户完成项目。3)在项目内部,用户可以即刻开启聊天,并通过侧边栏轻松地将过往的聊天记录添加到项目中。4)项目支持利用上下文信息来回答问题的能力,聊天内容能够保存在项目中,便于支持用户稍后继续对话,并清楚地知道在哪里查找所需内容。用户能够分享他们正在撰写小说的多个笔记和文件,项目中的每个新聊天都能直接访问这些数据,省去了每次会话开始时重复共享文档的繁琐步骤。5)项目内的任意聊天均可访问项目内的所有信息,用户可以像操作文件夹那样,利用项目将类似的聊天整合在一起,实现更加高效的管理。 表1:Projects功能亮点与创新 Projects功能亮点与创新概况 智能化的上下文管理 Projects引入了"智能文件夹"概念,突破了传统对话式交互的局限 将复杂的项目管理转化为自然对话形式,大大降低了使用门槛对话式项目管理的创新支持跨对话的信息关联,确保项目相关对话始终保持上下文连贯 通过Canvas等工具,实现项目文档的协同编辑和实时更新 用户可以上传项目相关文件(如规划文档、维护日志等),系统能自动理解和关联这些信息通过定制化指令,让AI助手能够按照特定角色和要求来处理项目信息 将项目文件、对话记录、网络搜索等多源信息无缝整合 信息整合与检索的突破 支持对项目内所有内容进行智能搜索,快速定位关键信息能够基于项目上下文进行信息推理和建议生成 实践应用示范 个人项目管理:如Demo中展示的房屋维护项目,通过AI助手实现信息检索和任务提醒团队协作:如SecretSanta项目展示的任务分配和邮件通知功能开发项目:如个人网站开发中展示的代码编辑和版本管理能力 资料来源:采购跃迁,西部证券研发中心 谷歌推出Gemini2.0 谷歌发布Gemini2.0,引领AIAgent新时代。Gemini2.0基于谷歌定制的硬件第六代 TPUTrillium构建而成,TPU为Gemini2.0的训练和推理提供100%算力支持。这一模型被谷歌称为迄今为止最强大的人工智能模型,专为智能体时代设计。目前谷歌完全对外开 放的是Gemini2.0Flash体验版,这个版本具有低延迟特性,其聊天版本可供全球用户使用,而具有文本到语音和图像生成功能的实验多模式版本则可供开发人员使用。 Gemini2.0亮点:性能提升、Agent功能强大、支持多模态输出与原生工具调用。 性能大幅提升:速度方面,Gemini2.0是前代Gemini1.5Pro的两倍,在关键基准测试中更是超越了此前的旗舰模型。同时,Gemini2.0在多模态方面也有出色表现,其对文本、代码、视频、空间的理解和推理能力全面提升。例如,利用SpatialUnderstanding功能,上传一张图片,Gemini2.0能快速进行图像中的物体检测(2D 和3D形式均可)和标注,并生成结构化的数据(JSON格式),为机器学习训练数据准备、图像分析或计算机视觉研究等场景提供了有力支持。此外,Gemini2.0的地图交互功能也十分强大,利用Mapexplorer可以展示世界上最有意思的大城市,让用户直观地感受到其强大的功能。 Agent功能强大:Gemini2.0推出了多个强大的智能体应用:1)ProjectAstra(通用AI助手)作为升级版通用AI助手,能流畅对话、调用谷歌搜索等工具、增强记忆能力,使用多种语言和混合语言进行交谈,同时访问谷歌搜索、地图等工具并保持 对话语境记忆。同时,ProjectAstra可以在会话中保持长达10分钟的记忆,并能记住过去与用户的对话,提供更个性化的体验,处理语言的速度可以与人类在日常对话中的处理速度相媲美,还能通过手机或原型眼镜为用户在现实世界中完成各种任务。2)ProjectMariner(浏览器中的人类-代理交互)能理解和推理浏览器页面中的信息,包括像素和文本、代码、图像和表单等网络元素,通过Chrome扩展程序为用户完成任务。虽然目前仍处于早期阶段,但已展现出巨大潜力。3)Jules(AI驱动的代码代理)是编程助手,能集成到GitHub工作流中。它可以在开发者休息时自主修复软件错误并准备代码更改,与传统编程助手不同,Jules能够作为自主代理直接集成到GitHub的工作流程系统中,分析复杂的代码库,跨多个文件实施修复,并准备详细的拉取请求,而无需持续的人工监督。开发者始终掌控着整个过程,Jules会在采取行动前提出建议方案,用户可以监控其编写代码的过程,确保开发过程始终处于人工监督之下。 多模态输出与原生工具调用:Gemini2.0可以直接生成图像与文本混合的内容,以及原生生成可控的多语言文本转语音音频。其原生图像输出功能还能进行多轮编辑迭代,直到生成满意的图像。多语言原生音频输出拥有8种高品质语音,多种语言和口音,为用户带来丰富的听觉体验。此外,Gemini2.0通过多模态实时API,支持 实时音视频流输入,还能进行语音活动检测,甚至可以集成多个工具完成复杂任务。例如,把电脑屏幕交给Gemini2.0接管,它可以在用户与模型实时交互的同时进行搜索和编码,为用户提供更加便捷高效的服务。 Gemini2.0可操控人形机器人执行任务,打开AgenticAI未来想象空间。除了探索虚拟世界中的代理功能外,谷歌还在试验可以通过将Gemini2.0的空间推理功能应用于机器人技术来在物理世界中提供帮助的代理。目前大多数AIAgent主要是让AI自主操作手机、 电脑上的程序进行任务执行,比如购物、浏览网页总结分析等,Gemini2.0通过构建物理世界的代理,借助人形机器人来实现真正进入现实世界,并可以感知、理解、执行、互动和反馈等等。未来,Gemini2.0或可以通过人形机器人载体(视觉、触觉、味觉(Meta已经在用机械手捕捉物体味觉)六维力矩等多种传感、以及双手)采集丰富的现实数据, 以来增强其空间物理智能,达到真正理解物理世界的能力,使之可以构建所谓的世界模型,而不再困于LLMs的多模态大模型的局限。 图1:Gemin2.0的机器人代理,让人形机器人叠积木 资料来源:CyberDai