您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [华创证券]:海外科技行业跟踪点评报告:OpenAI12Days,人类距离AGI再近一步 - 发现报告

海外科技行业跟踪点评报告:OpenAI12Days,人类距离AGI再近一步

信息技术 2024-12-24 吴鸣远 华创证券 小烨
报告封面

Day 12正式发布o3模型,AGI曙光初现。o3是o1的下一个版本。在9月份o1发布后仅3个月后,这一新版本在编码、数学以及ARC-AGI基准测试等多个基准上大幅超过了Open AI此前的o1模型。 o1融入多模态输入,打开多领域应用场景。o1在国际数学奥林匹克预选赛题目(AIME 2024)、编程能力测试(CodeForces)方面都比o1-preview提升了50%。在处理复杂问题时的重大错误率降低了34%,还能根据题目的难易程度调节处理时间,使得用户等待时间下降超过50%。o1同时支持多模态识别,相关领域实用性提升。如分析医学影像,识别图纸,提供创意建议等。 Sora于Day 3正式发布。Sora团队负责人Aditya Ramesh称,它具备今年早些时候在技术报告中所提到的所有世界模拟能力。用户可以对生成的视频进行多种操作,包括:1)风格预设:创建视频的风格等操作,比如气球世界、定格动画、纸板与纸艺等;2)Remix(重混):替换、删除或重构视频中的元素; 3)Re-cut(重新切割):找到最佳的一帧进行延展,循环剪辑;4)混合:将两段视频进行无缝合并剪辑;5)故事板:精准指定每个帧的输入,生成几乎完美一致性的分镜,等等。 模仿Agent协同,Day 4 Canvas正式面世。Canvas是基于GPT-4o模型开发而成,提供了一个单独的窗口,可以与ChatGPT一起执行编程、写作任务,会帮助提供意见、审核和执行具体的功能。Canvas类似一个内置的AI Agent,用AI来指导、协助ChatGPT一起执行任务,使输出的内容质量更好、更准确。 其他要点:1、o1-mini强化微调(Day2):强化微调改变了过去微调只是通过增加专业数据的逻辑,而是对具有推理能力的模型进行强化学习方向的微调。 根据OpenAI的研究数据,经过强化微调的o1mini模型,其测试通过率比传统的o1模型高出24%,相比未经过强化微调的o1mini则提升了整整82%。2、高级视频语音模式(Day6):在GPT-4o的演示中,OpenAI的工作人员能和4o视频通话,可以看到我们实时的手机屏幕内容,或者根据相机里的实时画面和用户聊天/解答问题。3、Chat GPT和Apple Intelligence整合,主要包含三个方面:1)与Siri的协同。当Siri判断某个任务可能需要ChatGPT的协助时,它可以将任务移交给ChatGPT处理;2)写作工具的增强,用户现在可以使用ChatGPT从头开始撰写文档,还能进行文档细化和总结;3)iPhone 16的相机控制功能,它能够通过视觉智能让用户更深入地了解拍摄对象。后面第十一天的与Mac整合,则是给了GPT更多Mac工具的调用权限。4、其他小功能更新(Day 7,8,9,10)“Projects”项目功能:允许用户创建特定项目,上传相关文件,设置自定义指令,并将所有与该项目相关的对话集中在一个地方; ChatGPT搜索升级:能在对话中搜索,支持多模态输出。4o热点:美国用户能打电话使用4o;o1图像输入和4o高级语音API正式开放。 Open AI 12 days正式完结,模型侧与应用侧均进行较大幅度更新,我们认为基础模型的进步有望催生应用领域的扩展,建议关注以下标的: 美股:AI工具侧:SNOW,CFLT,API,TWLO等;AI应用侧:CRM,NOW,TEAM,FRSH等;A/H股:1)办公:金山办公、合合信息、福昕软件、泛微网络、迈富时;2)金融:同花顺、新致软件;3)大模型:科大讯飞、三六零、第四范式;4)工业:中控技术、索辰科技;5)穿戴/玩具:云天励飞、乐鑫科技、恒玄科技、中科创达、汉王科技;6)医疗:润达医疗、卫宁健康、晶泰控股;7)法律:金桥信息、华宇软件、通达海;8)邮箱:彩讯股份;9)创意:万兴科技、美图公司;10)教育:佳发教育、欧玛软件、新开普;11)电商:焦点科技、小商品城、有赞、微盟;12)数据:海天瑞声;13)ERP:用友网络、金蝶国际;14)OA:致远互联、泛微网络;15)安全:深信服、永信至诚;16)算力:海光信息、寒武纪、景嘉微等。 风险提示:商业化后表现不及预期,用户付费意愿低,行业技术迭代速度较快。 一、Open AI 12 Days完结,向AGI再近一步 (一)核心要点1:o3模型发布,AGI之路曙光乍现 Day 12正式发布o3模型,AGI曙光初现。o3是o1的下一个版本。在9月份o1发布后仅3个月后,这一新版本在编码、数学以及ARC-AGI基准测试等多个基准上大幅超过了Open AI此前的o1模型。 Codeforces评分:2727——相当于全球人类程序员编码竞赛中,排名第175位,超过99%的人类程序员; 博士水平的科学问题(GPQA):87.7%——博士生一般得分70%; 最难的前沿数学测试:25.2%——其他模型没有超过2%,数学天才陶哲轩说该测试“可能难住AI好几年”; 证明是否达到AGI的题目ARC-AGI:87.5%——o1的得分25%。 图表1 o3模型在多个领域测评超越原有模型 (二)核心要点2:o1完全版发布,打开多领域应用场景 o1融入多模态输入,打开多领域应用场景。o1在国际数学奥林匹克预选赛题目(AIME 2024)、编程能力测试(CodeForces)方面都比o1-preview提升了50%。 在处理复杂问题时的重大错误率降低了34%,还能根据题目的难易程度调节处理时间,使得用户等待时间下降超过50%。o1同时支持多模态识别,相关领域实用性提升。如分析医学影像,识别图纸,提供创意建议等。 图表2 o1模型产生较大幅度的能力提升 (三)核心要点3:Sora正式发布,AI生成视频最新想象力 Sora于Day 3正式发布。Sora团队负责人Aditya Ramesh称,它具备今年早些时候在技术报告中所提到的所有世界模拟能力。用户可以对生成的视频进行多种操作,包括: 风格预设:创建视频的风格等操作,比如气球世界、定格动画、纸板与纸艺等; Remix(重混):替换、删除或重构视频中的元素; Re-cut(重新切割):找到最佳的一帧进行延展,循环剪辑; 混合:将两段视频进行无缝合并剪辑; 故事板:精准指定每个帧的输入,生成几乎完美一致性的分镜,等等。 目前,Sora只对ChatGPT Plus和Pro用户开放(订阅费分别为20美元/月和200美元/月),暂不支持免费、团队等其他类型用户。前者每月可生成50个低分辨率视频,后者在慢速队列下可以无限制生成,并在快速模式下可生成500个视频。 图表3 Sora故事板功能 是,「鹤将头探入水中,并捉出一条鱼」。那他做的工作就是,分别创建这两张故事卡(视频帧),并在 两者之间设大概五秒钟的间隔。最终,他得到完整的视频镜头,「美丽的白鹤站在小溪中,它拥有一条 黄色的尾巴。接着鹤将头探入水中,并捉出一条鱼。」 (四)核心要点4:Open AI的内置Agent——Canvas 模仿Agent协同,Day 4Canvas正式面世。Canvas是基于GPT-4o模型开发而成,提供了一个单独的窗口,可以与ChatGPT一起执行编程、写作任务,会帮助提供意见、审核和执行具体的功能。例如,当编写代码时遇到了困难,Canvas可以高亮显示有问题的代码段,帮助ChatGPT提供内联的调试建议快速修复这些错误。Canvas类似一个内置的AI Agent功能,用AI来指导、协助ChatGPT一起执行任务,使输出的内容质量更好、更准确。 图表4 Canvas使用案例 (五)其他要点 1、o1-mini强化微调(Day2) 强化微调改变了过去微调只是通过增加专业数据的逻辑,而是对具有推理能力的模型进行强化学习方向的微调。引导模型在面对复杂问题时有更深刻的思考能力。现在,仅需“几十个例子”甚至12个例子,就能够让模型有效学会特定领域的推理。根据OpenAI的研究数据,经过强化微调的o1mini模型,其测试通过率比传统的o1模型高出24%,相比未经过强化微调的o1mini则提升了整整82%。 图表5强化微调模型使得基因识别准确度提升 2、高级视频语音模式(Day6) 在GPT-4o的演示中,OpenAI的工作人员能和4o视频通话,可以看到我们实时的手机屏幕内容,或者根据相机里的实时画面和用户聊天/解答问题。 图表6高级视频语音模式 3、合作AppleIntelligence(Day5、Day11) Chat GPT和Apple Intelligence整合,主要包含三个方面:1)与Siri的协同。当Siri判断某个任务可能需要ChatGPT的协助时,它可以将任务移交给ChatGPT处理; 2)写作工具的增强,用户现在可以使用ChatGPT从头开始撰写文档,还能进行文档细化和总结;3)iPhone 16的相机控制功能,它能够通过视觉智能让用户更深入地了解拍摄对象。后面第十一天的与Mac整合,则是给了GPT更多Mac工具的调用权限。 图表7与Apple整合 4、其他小功能更新(Day 7,8,9,10) “Projects”项目功能:允许用户创建特定项目,上传相关文件,设置自定义指令,并将所有与该项目相关的对话集中在一个地方。 ChatGPT搜索升级:能在对话中搜索,支持多模态输出。 4o热点:美国用户能打电话使用4o o1图像输入和4o高级语音API正式开放。 二、投资建议与相关标的 Open AI 12 days正式完结,模型侧与应用侧均进行较大幅度更新,我们认为基础模型的进步有望催生应用领域的扩展,建议关注以下标的: 美股: AI工具侧:SNOW,CFLT,API,TWLO等 AI应用侧:CRM,NOW,TEAM,FRSH等; A/H股: 1)办公:金山办公、合合信息、福昕软件、泛微网络、迈富时;2)金融:同花顺、新致软件;3)大模型:科大讯飞、三六零、第四范式;4)工业:中控技术、索辰科技;5)穿戴/玩具:云天励飞、乐鑫科技、恒玄科技、中科创达、汉王科技;6)医疗:润达医疗、卫宁健康、晶泰控股;7)法律:金桥信息、华宇软件、通达海; 8)邮箱:彩讯股份;9)创意:万兴科技、美图公司;10)教育:佳发教育、欧玛软件、新开普;11)电商:焦点科技、小商品城、有赞、微盟;12)数据:海天瑞声;13)ERP:用友网络、金蝶国际;14)OA:致远互联、泛微网络;15)安全:深信服、永信至诚;16)算力:海光信息、寒武纪、景嘉微等。 三、风险提示 商业化后表现不及预期,用户付费意愿低,行业技术迭代速度较快。