您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。 [未知机构]:GPT54发布点评知识工作与计算机操作能力大幅提升高推理成本为核心痛点 - 发现报告

GPT54发布点评知识工作与计算机操作能力大幅提升高推理成本为核心痛点

2026-03-09 未知机构 carry~强
报告封面

【产品发布】北京时间3月6日凌晨,OpenAI发布GPT-5.4 该系列模型包含GPT-5.4 Thinking和GPT-5.4 Pro。 该款模型将编程、推理、计算机操控、网页搜索和百万Token上下文全部整合进同一个模型。 GPT-5.4发布点评:知识工作与计算机操作能力大幅提升,高推理成本为核心痛点【中信证券前瞻】—————- 【产品发布】北京时间3月6日凌晨,OpenAI发布GPT-5.4 系列模型。 该系列模型包含GPT-5.4 Thinking和GPT-5.4 Pro。 该款模型将编程、推理、计算机操控、网页搜索和百万Token上下文全部整合进同一个模型。 根据OpenAI官网,GPT-5.4的上下文长度达到了100万token,在编程、推理、计算机操控和网页搜索等方面均取得良好进步。 目前GPT-5.4 Thinking和GPT-5.4 Por已经在ChatGPT中推出。 API和Codex中也已经可以调用GPT-5.4。 【模型亮点】GPT-5.4 在知识工作场景中能力大幅提升,展示出较好的可用性。 譬如,在投行内部电子表格建模测试中,GPT-5.4的平均得分达到了87.3%(GPT-5.2为68.4%);在大型律所法律评估测试中,GPT-5.4得分为91%。 而在计算机操作能力上,GPT-5.4作为OpenAI首个具备原生计算机使用功能的通用模型,擅长通过使用编写代码来操作计算机,并能根据截图发出鼠标和键盘命令。 在电脑操作测试OSWorld-Verified中,GPT-5.4得分达SOTA(75.0%),该结果已超越人类平均水平(72.4%);在浏览器测试WebArena-Verified中GPT-5.4的得分达到了67.3%;在网页搜索中,GPT-5.4在BrowseComp基准上得分82.7%,比GPT-5.2的65.8%高出17个百分点,Pro版更达到89.3%,创下业界最高分。 【模型痛点】 我们认为该模型的痛点在于高推理成本。 根据OpenAI官网,GPT-5.4 API标准版定价为输入2.50美元/百万Token,缓存输入0.25美元/百万Token,输出15美元/百万Token;Pro版为输入30美元/百万Token,输出180美元/百万Token。 而谷歌推出的Gemini 3.1 Pro Preview为输入2美元/百万Token,输出12美元/百万Token;Anthropic推出的Claude Opus4.6为输入5美元/百万Token,输出25美元/百万Token。