【OpenAI发布季Day12|o3/o3-mini即将到来,模型能力再突破】国金计算机 OpenAI展示最新推理模型o3/o3-mini,首次开放给外部研究人员进行安全测试。o3基准测试取得突破性进展: SWE-BenchVerified软件基础测试准确率达71.7%,比o1高22.8pct;Codeforces竞赛编程评分2727,超过OpenAI首席科学家,o1评分1 【OpenAI发布季Day12|o3/o3-mini即将到来,模型能力再突破】国金计算机OpenAI展示最新推理模型o3/o3-mini,首次开放给外部研究人员进行安全测试。o3基准测试取得突破性进展: SWE-BenchVerified软件基础测试准确率达71.7%,比o1高22.8pct;Codeforces竞赛编程评分2727,超过OpenAI首席科学家,o1评分1891;美国奥数选拔考试AMIE准确率96.7%,比o1高13.4pct; 博士级难度科学问答GPQADiamond准确率87.7%,比o1高9.7pct; 前沿数学基准测试中准确率超过25%,目前其他所有模型准确率均低于2%。 o3-mini注重性价比:支持低、中、高三种推理计算选项,中档模式下编程、奥数能力优于满血版o1,延迟显著低于o1-mini。 计划根据安全测试结果在1月底左右正式发布o3Mini,随后发布完整版的o3。