您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[光大证券]:AI行业跟踪报告第50期:OpenAI十二日发布会“收官”,AGI发展又一里程碑 - 发现报告
当前位置:首页/行业研究/报告详情/

AI行业跟踪报告第50期:OpenAI十二日发布会“收官”,AGI发展又一里程碑

信息技术2024-12-30刘凯、颜燕妮、白玥光大证券D***
AI智能总结
查看更多
AI行业跟踪报告第50期:OpenAI十二日发布会“收官”,AGI发展又一里程碑

2024年12月29日 行业研究 OpenAI十二日发布会“收官”,AGI发展又一里程碑 ——AI行业跟踪报告第50期 计算机行业买入(维持) 作者 分析师:刘凯 执业证书编号:S0930517100002 021-52523849 kailiu@ebscn.com 分析师:颜燕妮 执业证书编号:S0930524030004021-52523656 yanyanni@ebscn.com 分析师:白玥 执业证书编号:S0930524070017021-52523683 baiyue@ebscn.com 要点 一、OpenAI十二日发布会正式落幕,开启智能化新纪元 北京时间12月21日,OpenAI十二日发布会圆满结束。OpenAI的这一系列创新不仅体现了其在AI领域的强大实力,也昭示着未来AI产业将迎来全新的浪潮,从视频生成到多模态AI的应用,这些技术的发展将为各个行业带来颠覆性的变化。具体而言,OpenAI共依次发布了o1推理模型、ChatGPTPro订阅服务、强化微调技术Sora、Canvas功能的增强版本、ChatGPT与苹果生态的集成、ChatGPT的增强版高级语音模式、ProjectsinChatGPT、ChatGPT的升级版搜索功能、o1正式版API的全面上线、ChatGPT的通话访问模式、ChatGPT在MacOS上的更新以及最新的o3系列模型等。 图1:12DaysofOpenAI时间线 行业与沪深300指数对比图 资料来源:Wind 资料来源:digialps,光大证券研究所绘制 (注:在报告《OpenAI十二日发布会开启,AI产业再迎新浪潮——AI行业跟踪报告第45期》中已对前四日发布会进行总结,该文将从第五日开始回顾OpenAI发布会内容。) Day5:AppleIntelligence深度整合ChatGPT 此次AppleIntelligence集成ChatGPT后主要有三点升级:1)与Siri的协同。当Siri判断某个任务可能需要ChatGPT的协助时,它可以将任务移交给ChatGPT处理;2)写作工具的增强,用户现在可以使用ChatGPT从头开始撰写文档,还能进行文档细化和总结;3)iPhone16的相机控制功能,它能够通过视觉智能让用户更深入地了解拍摄对象。 在实际演示环节,McDon展示了如何在iPhone上启用这些功能。用户需要首先进入设置,启用Appleintelligence和Siri,然后开启新的ChatGPT扩展。这场发布会最引人注目的环节,就是ChatGPT为苹果设备带来的视觉智能能力。OpenAI团队用一场即兴的“圣诞毛衣大赛”来演示了这项技术。 当开发者长按iPhone的相机控制按钮,ChatGPT就能实时分析画面中的内容。在演示中,系统不仅能识别出每个人身上毛衣的特征,还能以一种近乎幽默的方式为这些节日装扮打分排名。这项视觉集成的意义远不止于此。它实际上弥补了苹果AI系统最致命的短板之一。在此之前,Siri的视觉识别能力一直是其软肋,而现在通过与ChatGPT的合作,iPhone用户可以随时通过相机获取周围物体的深度信息和解释。 图2:ChatGPT对画面内容进行实时分析 资料来源:36氪,光大证券研究所 Day6:语音和视觉功能(AdvancedVoicewithVision)发布 OpenAI发布季第六天,5月份预告的语音和视觉功能(AdvancedVoicewithVision)终于发布。这意味着ChatGPT现在能够通过视觉和听觉与用户互动,提供实时的视觉互动体验,就像与真人视频聊天一样自在。 在今年5月14日的春季发布会上,OpenAI首次正式介绍了GPT-4o,其中最引人注目的莫过于其原生的多模态能力。实时视频通话功能的出现,将AI与人类的互动提升到了一个新的高度。用户不仅能够与AI进行实时对话,更令人惊喜的是,AI可以理解用户的动作和环境。例如,当用户谈论桌子上的一杯红色冰美式咖啡时,AI能够记住这个细节,并在稍后的问题中准确回答。 这种实时理解视觉的能力,对于AI来说无疑是一种前所未有的突破。OpenAI 进行了场景演示,让ChatGPT与在场人员互动,甚至能精准地记忆名字和细节。OpenAI还透露,这项新功能将在一周内对Pro和Plus用户开放。 图3:ChatGPT可以通过理解用户的动作及环境实时指导用户制作咖啡 资料来源:OpenAI官方X账号 中庚基金 与实时视频通话相辅相成的另一个功能是实时理解屏幕。这个功能通过屏幕共享的方式,让AI能够查看用户的电脑屏幕,提供即时建议和反馈。这种实时辅助将大大提升工作效率,尤其在需要灵活处理复杂任务时,功能尤为显著。 此外,OpenAI还十分应景地推出了“圣诞老人限定语音”,这是在高级语音模式中新增的一个音色,带有浓厚的节日气氛,用户可以在对话中体验到不同的语音输出,让人感受到节日的欢乐氛围。 图4:ChatGPT平台推出圣诞老人限定语音 资料来源:OpenAI官方X账号,光大证券研究所 发布之日起,最新的移动应用将逐步向所有Team用户及大部分Pro和Plus订阅者推出高级语音视觉功能。对于欧洲的Pro和Plus用户,OpenAI将尽快提供这项服务。至于企业用户和教育用户,他们将在明年年初获得访问权限。 Day7:推出Projects功能,用户对话管理重大更新 OpenAI在第七天的发布会上,发布推出一项革命性的功能——Projects。这一功能标志着对话管理方式的全新变革,为用户带来了前所未有的便捷体验。 Projects功能允许用户在ChatGPT平台上创建和管理“Projects”,即对话项目。用户可以上传各类文件,包括文本、图片和视频等,同时设置个性化指令,以实现更高效的对话管理和项目协作。 图5:Projects功能上线 资料来源:ChatGPT、聚牛科技,光大证券研究所 Projects功能的核心在于将聊天记录、文件及自定义指令整合至一个清晰的界面,提供给用户一个整洁的工作环境。用户只需在主页左侧导航栏上点击“+”号,便可以轻松创建一个新项目并为其命名。同时,用户还可以自定义Projects的颜色,以个性化设置来提升使用体验。在创建Projects后,即使里面尚未添加任何文件,用户也可在该项目中直接开启全新的对话。 在功能体验上,Projects允许用户使用ChatGPT的多项功能,如SearchGPT、Canvas和编程等。例如,在一个名为“圣诞节交换礼物”的项目中,用户可以上传相关的文件,如规则和活动细节,同时通过Instructions为项目下达特定任务。 Projects功能允许用户上传多种文件,包括PDF文档、数据电子表格、图片和音频文件,确保ChatGPT能够获取丰富的背景信息,进而生成更加深入和具体的见解。用户还可以设置自定义指令,为ChatGPT的回应注入个性化特点。例如,设计师可以上传品牌风格指南,并要求ChatGPT在提供设计建议时遵循品牌形象。 Day8:ChatGPTSearch全面升级 此次ChatGPTSearch的更新主要有三点:1)移动设备上的搜索功能得到优化。2)更新后ChatGPT聊天中能够显示网络搜索结果,用户可以切换按钮来决定是否使用网络搜索。3)语音模式与搜索功能集成,实现语音到语音的实时网络结果。 OpenAI深知,在快节奏的现代社会中,用户对于搜索速度和质量的要求日益提高。因此,他们对ChatGPTSearch的搜索算法进行了全面优化,使得搜索结果更加准确、迅速。无论是在PC端还是移动端,用户都能享受到流畅无阻的搜索体验。并且在移动设备上的表现更佳,这些改进包括了新的地图体验,使得用户能够更直观地获取地理信息。 图6:ChatGPTSearch体验升级 资料来源:ChatGPT、光明AI研究院,光大证券研究所 针对移动设备用户,OpenAI特别进行了针对性的优化。他们深知移动设备在屏幕尺寸、操作方式等方面的特殊性,因此设计了一系列符合移动设备特点的交互方式。例如,在搜索结果中融入丰富的图像和可视化列表,让用户能够更直观地获取所需信息。同时,针对移动设备用户的反馈,OpenAI还优化了聊天搜索的体验,使得用户能够在聊天中直接看到企业的详细信息,如路线、网站、电话和营业时间等,极大提升了用户的搜索效率和便捷性。 值得一提的是,现在可以直接ChatGPT搜索中播放视频了,例如,在直播的案例展示中,测试人员直接搜索《狮子王》电影的预告片时,可以直接在ChatGPT中播放这个内容。并且是免费向全球用户开放这些功能。 在旅行规划方面,ChatGPT的搜索功能展现出了强大的实用性。以一位计划前往瑞士苏黎世度假的用户为例,在ChatGPT中输入“我正在前往瑞士度假,你能告诉我今年12月23日那一周的情况吗?”,ChatGPT迅速启动搜索功能,从众多网络资源中筛选出相关信息并给出了详细且准确的回答,并告知用户在2024年12月23日那一周,苏黎世将举办丰富多样的节日活动。 图7:在旅行规划方面,ChatGPT的搜索功能展现出了强大的实用性 资料来源:OpenAI官网,光大证券研究所 Day9:宣布o1系列向第三方开发者开放 1.完整的o1模型目前已通过OpenAI的API向开发者开放。 新推出的o1模型,其内部编号为o1-2024-12-17,是特别设计用于应对复杂多步骤推理任务的。相较于先前的o1预览版本,该版本在准确性、效率以及灵活性方面均取得了显著的提升。 2.OpenAI的实时API已实现升级,旨在为智能对话/语音及音频AI助手提供支持。 OpenAI正式宣布了其实时API的重大升级,此次升级旨在提供低延迟、流畅的交互体验,适用于语音助手、实时翻译工具或虚拟导师等多种应用场景。在此次升级中,WebRTC的新集成成为显著亮点。它直接支持音频流、噪声抑制和拥塞控制,显著简化了基于语音的应用程序构建流程。开发者现在仅需进行基础配置,即可轻松集成实时功能,即便在多变的网络条件下,也能保持稳定的性能表现。 在定价策略方面,OpenAI亦推出了新的方案,使得GPT-4o音频的成本降低了60%。具体而言,每百万输入Tokens的费用为40美元,每百万输出Tokens的费用为80美元。同时,缓存音频输入的成本也降低了87.5%,现定价为每百万输入Tokens2.5美元。为了进一步提升性价比,OpenAI还推出了GPT-4omini,这是一种体积更小、更具成本效益的模型。其价格更为亲民,每百万输入Tokens的费用为10美元,每百万输出Tokens的费用为20美元。此外,GPT-4omini的文本Tokens费率也相对较低,输入Tokens的起始价格为0.60美元,输出Tokens的起始价格为2.40美元。 除了在定价方面的调整,OpenAI还赋予了开发者对实时API响应的更多控制权。例如,并发带外响应等特性允许后台任务(如内容审核)在不影响用户体验的前提下运行。开发者还可以根据实际需求定制输入上下文,专注于对话的特定部分,并控制语音响应的触发时机,从而实现更精确、更无缝的交互体验。 3.偏好微调功能新增了多项自定义选项。 另一个重要的新增功能是偏好微调,这是一种创新的模型定制方法,能够根据用户和开发者的偏好来优化模型表现。与传统的依赖于精确输入输出的监督式微调不同,偏好微调采用成对比较的方式来指导模型选择更优的响应。这种方法在处理主观性较强的任务时尤为有效,例如总结、创造性写作或是语气和风格更重要的应用场景。 4.面向Go和Java开发者的新SDK。 为了进一步优化集成流程,OpenAI正拓展其官方SDK产品线,现推出Go和Java版本的测试版SDK。这些新增的SDK与现有的Python、Node.js和.NET库相辅相成,极大地拓宽了开发者在不同编程环境中与OpenAI模型进行交互的便利性。GoSDK在构建可扩展的