AI应用产业化的开端: 证券研究报告|行业专题 计算机 行业投资评级|优于大市(维持) 2024年12月25日 OpenAI十二日发布会深度总结 证券分析师 姓名:陈涵泊 资格编号:S0120524040004 邮箱:chenhb3@tebon.com.cn 证券分析师 姓名:李佩京 资格编号:S0120524090004 邮箱:lipj@tebon.com.cn 研究助理 姓名:王思 邮箱:wangsi@tebon.com.cn 0 核心逻辑 OpenAI如期举行十二日发布会,以“现货”为主加速产品落地与验证,或预示着2025年AI应用将正式进入产业化阶段。 发布会产品以新旧产品融合组成,部分产品如Sora、高级语音、o1、Canvas等曾分别在2月、5月、9月、10月初次亮相,在此次发布会迎来迭代升级,并正式向大部分用户开放;而强化微调、Project、o1API等则为首次全新亮相,同样为即日或短期内上线。 从模型能力来看,我们认为,OpenAI或难以为继长期领先优势,后来者可沿着成功路径加速赶上。例如,谷歌在Sora上新之后重磅推出Veo2,更好地理解现实世界物理和运动的细微差别,理解电影摄影语言的能力,分辨率高达4K,而Sora最高分辨率仅为1080p,同时通过人类评估,Veo2模型在与几大顶尖视频模型(包括Sora)的对比中脱颖而出;而从应用场景来看,OpenAI或凭借“现货”发布的完善AI开发工具箱,降低AI应用开发门槛,实现产品从开发→引流→留存→价值兑现与新品开发的完整闭环,加快AI应用落地与低门槛使用。 我们认为,随着“预训练”的放缓,大模型短期能力升级存在上限,仅有“模型+应用”产生数据飞轮才可形成持续的动态护城河。这或预示着,大模型厂商下一轮竞争将朝着找场景、找落地的方向前进,2025年AI应用或将正式进入产业化阶段。OpenAI在未来竞争中依旧占据良好生态位,广泛涉及模型能力提升、开发工具丰富与垂类/端侧场景应用价值释放。 OpenAI模型能力走向推理与多模态交互,性能跃迁朝AGI迈进,简化开发流程、降低开发成本支撑应用落地。 强化大模型推理性能,提升多模态能力将极大拓展大模型的场景边界,同时朝着AGI目标渐行渐近。Day1推出满血o1,推理速度更强更快且支持多模态,复杂问题错误率减少34%,推理速度提升50%,实用性大大增强。Day3升级上线SoraTurbo,生成速度更快,丰富的功能使之或成为开箱即用的视频创造工具。Day6正式推出了ChatGPT高级语音模式,已增加了屏幕共享和视觉识别能力。Day12亮相王炸产品o3和o3mini,刷新SOTA定义推理大模型性能新高度,o3在人工通用智能评估基准ARC-AGI达到87.5%,通往AGI已无重大阻碍。 致力于降低AI应用开发门槛,加快AI应用落地普及。Day2面向企业机构和开发者推出强化微调,增强推理能力使得利用少量高质量数据即可训练出专家助手。Day9面向开发者上线o1API、实时API和全新的偏好微调,同时o1API与之前的预览版本相比,思考成本降低了60%;GPT-4o音频成本比以前下降60%;GPT-4omini比之前成本下降10倍。 AI成为生产力工具渐行渐近,OpenAI在垂类/端侧场景释放AI应用价值,从而在商业上期待兑现。 变革人机交互方式,解放人类生产力。Day4向全体ChatGPT用户正式开放交互界面Canvas,ChatGPT升级为生产力工具,突破了ChatBot本身的限制,通过工具和Agent手段,让基础模型获得更大的空间,人机协同的文档写作、论文审稿、代码编辑成为可能。Day7发布ProjectsinChatGPT,这将允许用户对聊天和数据进行分组,从而更轻松地根据用户需求定制ChatGPT,从一个单一的AI对话,演变成一个高效率的协作平台。Day11上新ChatGPT桌面版,MacOS桌面App可与各类Apps交互操作,ChatGPT从会话助手变身“AI代理人”。 在垂类/端侧场景推动AI应用普及,打开流量入口静待用户对OpenAI价值的认同。Day5将ChatGPT集成到iOS和MacOS中,成功地嵌入了全球重要消费级硬件生态系统的核心位置,或吸引苹果用户向ChatGPT涌入。Day8和Day10OpenAI分别向所有用户推出ChatGPTsearch和热线电话的功能,ChatGPT搜索有望凭借精确性、个性化、多模态等优势取代传统搜 索方式,而热线电话可进一步推动AI进入全民时代。OpenAI推出ChatGPTPro,每月定价200美元,流量入口的打卡叠加产品功能完善增强用户粘性,或将加速ChatGPT商业价值兑现。 投资建议:我们认为OpenAI已从模型性能、应用生态、模型成本奠定了发展AI应用的基础,或已迎来AI应用产业化的开端。建议关注toB/CAgent、多模态AI以及推理算力。 风险提示:大模型迭代不及预期、用户AI价值认知滞后、AI应用场景开发不及预期、AI应用行业竞争加剧、商业模式不成熟等。 请务必阅读正文之后的信息披露及法律声明。1 目录CONTENTS 01 OpenAI十二日发布会回顾, 模型迭代助力AI生产力工具人人可用 02 投资建议和风险提示 请务必阅读正文之后的信息披露及法律声明。2 01 OpenAI十二日发布会回顾, 模型迭代助力AI生产力工具人人可用 OpenAI为期12天的发布会如期结束,新版模型、智能体应用为重要方向。12月5日,OpenAICEOSanAltman在X平台宣布,自12月6日太平洋时间上午10点开始, OpenAI将启动为期12天的活动。在每一个工作日将进行直播,展示一些新发布的内容或演示。 满血o1亮相Day1发布会,推理速度更强更快且支持多模态,o1实用性大大增强,未来在医学影像、工程设计等多领域具有应用前景。 复杂问题错误率减少34%,在多项基准测试中,满血o1性能直接暴涨,在数学、代码问题中,拿下了最优的成绩。相较于o1-preview,o1数学性能提升了近30%,代码能力提升了27%;o1在GPQADiamond基准测试中,表现完全超越了人类专家。 推理速度提升50%,根据问题复杂度更智能地思考。对于简单问题能快速回应,而在面对复杂的数学和编程问题时则会投入更多时间深度分析。 支持多模态,满血o1不仅能理解图像,还可以结合文本进行联合推理。发布会现场展示,在太空中收集太阳能,以供太空数据中心使用的一套系统草图让o1识别, o1准确了解太空需要散热片并计算出大小。 推出时间:发布当天,Plus和Team用户即可使用o1,企业版和教育版用户预计将在一周后获得访问权限,o1未来或支持Web浏览和文件上传工具以及上线API。 图表:o1满血版相对预览版在数据、代码、博士级别取得优异成绩图表:o1支持多模态图文联合推理分析 OpenAI推出ChatGPTPro,每月定价200美元,模型性能更佳且无限制访问,或为需AI协作完成重要工作的专业人士重要选项。 Pro无限制访问并推出专属的o1pro模型,订阅费200美元/月,价格相比Plus提升10倍。Pro会员可对OpenAI全部模型和工具的扩展访问,包括o1、o1-mini、GPT-4o和高级语音模式的无限制使用(Plus用户用o1还是50条消息/周),同时新增了专属的o1pro模型,允许用户调用更多算力来解决最困难的问题,能够通过更多的思考时间生成最可靠的答案,未来还将加入更多计算资源支持。 与o1和o1-preview相比,o1pro准确性更高、稳定性更强。在数学竞赛(AIME2024)准确性、编程能力测试(CodeForces)、博士级科学推理问题(GPQADiamond)准确性中,o1pro分别达到86%、90%、79%,而满血o1分别为78%、89%、76%。同时,OpenAI采用了严格的“4/4可靠性”标准测试(模型连续四次给出正确答案),o1pro相较o1和o1-preview表现更佳。 我们认为,大模型厂商在训练端的放缓,使得厂商更加看重推理能力能给用户带来的价值,并考虑吸引更多用户或提高收费基准的方式实现商业兑现。另一方面,随着大模型厂商对用户近两年使用习惯的培育,大模型推理能力或基本满足用户使用需求,已有能力实现AI应用在B/C端价值兑现。 图表:o1pro相比满血与预览版o1在数据、代码、博士级别问题上性能提升图表:o1pro模型一致性和稳定性更强 Day2面向企业机构和开发者推出强化微调(RFT),增强推理能力使得高质量数据可训练出专家助手,根据各自特定的需求来定制o1mini模型。 强化微调VS.传统监督微调,更注重特定任务推理能力。强化微调是一种利用强化学习原理来进一步优化和定制预训练模型的方法,允许开发者通过使用数十到数千个高质量的任务来定制模型,使其在特定任务上表现更佳。不同于传统监督微调(SFT),RFT专注于教AI学会推理与解决问题,而非简单地模仿输入数据。 用户仅需提供数据支持,OpenAI将承担所有技术工作。o1为通用模型,在特定任务推理表现仍需深度理解。用户需要准备一个数据集和一个评分系统,以评估模型在训练和验证数据集上的表现。通过结合o1模型、微调技术和特定数据,用户可以创建一个性能超越原始o1模型的新版本--o1mini。 强化微调预计在法律、保险、医疗保健、金融和工程等领域有积极结果,因为该模型在结果具有客观“正确”答案(大多数专家都会同意)的任务中表现出色。 推出时间:OpenAI的Alpha项目已开启,计划在2025年初正式面向公众推出RFT。 我们认为,强化微调可大幅降低定制化AI应用的开发门槛,AI应用有望进入从1-N的快速发展阶段。 图表:强化微调后的o1-mini准确性超过满血o1 图表:RFT通过“评估器(graders)”对模型输出进行评分,优化推理过程 注:其中0.7为评分系统的打分,分数越高与正确答案越相近(取值0-1,1为完全正确答案) Day3正式推出SoraTurbo,生成速度更快,丰富功能使之或成为开箱即用的视频创造工具。 Sora基础功能包括文生、图生视频;宽屏、竖屏或方形画面比;最高1080p分辨率;最长20秒时长;最多可支持同时生成4段视频片段供选择。 在视频处理流程上,Sora采用了分级处理机制。360p的预览版本生成速度很快,通常只需20秒左右,而1080p的完整版本则需要2-3分钟的处理时间。系统支持后台处理,允许用户同时提交多个任务,并提供实时的处理进度反馈。 单独设计Sora网页,更好地帮助用户创作故事。打开主界面,用户可以查看和管理所有的视频生成内容,并且切换网格视图、列表视图,以及创建文件夹和收藏夹,查看书签等。 推出时间:当地时间12月9日晚些时候,美国、以及大多数其他国家的用户,可以访问OpenAI官网体验Sora。它被包含在ChatGPTPlus、ChatGPTPro的会员订阅中,无需额外付费。其中,Plus能享受的视频生成权益包括:生成最多50个优先视频,视频分辨率最高达720p,视频时长为5秒;而Pro能享受的视频生成权益包括生成最多500个优先视频(无限个relaxed视频),视频分辨率高达1080p,视频时长为20秒,可并发生成5个,还能下载无水印视频。 图表:Storyboard通过分镜头生成连续视频 图表:Remix给视频加“特效” 图表:Sora网页界面:探索区、个人库和创作系统三大核心区域 我们认为,此次最大的更新在于Sora推出故事版、Remix等高级编辑功能,使得整个产品的功能接近能够满足创作者自我表达创意的工具需求,帮助用户完成理想 的镜头故事。和真实世界中不同,Sora提供的素材是无限的。而和其他的文生视频产品不同,Sora的视频是可以修改加工的。 Story