ff ChatGPTo3模型最新发布,推理与编程能力大幅提升 OpenAI的ChatGPTo3模型在SweepBenchVerified基准测试中实现了71.7%的准确率,较前代o1模型提高了20%,并在Codeforces编程竞赛中以2727分的高分显著超过o1的1891分,表现出在推理和编程能力上的显著进步。此外,o3模型在ARC-AGI基准测试中得分高达87.5%,是o1在相同条件下表现的三倍,显示了其在解决高级问题和推动人工通用智能(AGI)发展方面的潜力。 当前大模型推理能力有所不足,ChatGPTo3值得期待 本文评测了多个知名大型语言模型的推理能力,发现尽管在经典推理题中表现良好,这些模型在解决特定易错问题时却常犯错误,尤其是在数学和语言推理上的表现参差不齐。特别地,OpenAI的o1模型在推理测试中表现最为突出,而国产模型与其他国外大模型间的性能差距不大。此外,评测还涉及了模型在处理研报复杂文本的能力,结果显示模型在理解细微语言差异和技术问题上仍面临挑战,但QwenQwQ模型相较于o1在区分技术壁垒和政策影响问题上显示了更好的判断力。ChatGPTo3的发布有望带来新的生产力突破。 ETF轮动因子跟踪 我们对前期使用GBDT+NN机器学习因子构建的ETF轮动策略进行跟踪测试,发现因子在样本外表现出色:上周IC值达-8.59%,多头超额收益率为0.01%。策略的年化超额收益率为12.13%,信息比率为0.69,超额最大回撤为17.31%,上周超额收益率-0.52%,本月以来超额收益率1.60%,今年以来超额收益率7.17%,近期表现优异。 高频因子跟踪 我们对前期挖掘的高频选股因子进行跟踪测试,发现因子在样本外整体表现出色。就上周表现来看,价格区间因子多头超额收益率0.66%,价量背离因子0.58%,遗憾规避因子-0.15%,斜率凸性因子-1.58%。本月以来,价格区间因子多头超额收益率为2.80%,价量背离因子-0.38%,遗憾规避因子-1.42%,斜率凸性因子-1.65%。今年以来高频因子表现整体都比较优秀,价格区间因子多头超额收益率8.01%,价量背离因子2.96%,遗憾规避因子8.95%。斜率凸性因子表现欠佳,多头超额收益率-3.32%。 其中价格区间因子衡量股票在日内不同价格区间成交的活跃程度,能体现出投资者对于股票未来走势的预期。该因子展现出了较强的预测效果,今年以来表现比较稳定。价量背离因子主要衡量股票价格与成交量的相关性,一般而言相关性越低,未来上涨的可能性越高。但该因子近几年表现一直不太稳定,多空净值曲线趋近走平,不过今年超额收益处于历史较高水平。遗憾规避因子通过考察股票当天被投资者卖出后反弹的比例和程度,展现了较好的预测效果。该因子样本外超额收益稳定,表明A股投资者的遗憾规避情绪依然会显著影响股价的预期收益。 我们将三类高频因子首先等权合成后构建出了高频“金”组合中证1000指数增强策略,该策略年化超额收益率10.33%,超额最大回撤为6.04%。上周录得0.56%的超额收益,本月以来超额收益为1.50%,今年以来超额收益为5.94%。 为考虑进一步增强策略的业绩表现,我们将高频因子与三个比较有效的基本面因子进行等权合成构建出了高频&基本面共振组合中证1000指数增强策略,该策略在样本外超额收益稳定。上周录得1.17%的超额收益,本月以来超额收益为1.75%,今年以来超额收益率为7.33%。截止到上周,该策略的年化超额收益率为14.77%,超额最大回撤为4.52%。 风险提示 1.以上结果通过历史数据统计、建模和测算完成,在政策、市场环境发生变化时模型存在失效的风险。 2.策略依据一定的假设通过历史数据回测得到,当交易成本提高或其他条件改变时,可能导致策略收益下降甚至出现亏损。 内容目录 一、ChatGPTo3模型最新发布,推理与编程能力大幅提升5 二、当前大模型推理能力有所不足,ChatGPTo3值得期待5 1.大模型易错推理题表现比较6 2.大模型研报文本推理能力8 三、ETF轮动策略跟踪11 1.ETF轮动因子及策略近期表现11 2.本周建议关注ETF13 四、高频因子超额收益概览13 五、各类高频因子近期表现跟踪14 1.高频价格区间因子14 2.高频量价背离因子15 3.遗憾规避因子17 4.斜率凸性因子18 六、基于基本面因子与高频因子构建的中证1000指数增强策略表现20 附录一:推理大模型研报阅读效果22 附录二:高频“金”组合中证1000指数增强策略本周持仓列表28 附录三:高频&基本面共振组合中证1000指数增强策略本周持仓列表29 风险提示30 图表目录 图表1:ChatGPTo3在编程竞赛网站得分5 图表2:本文测评使用推理大模型及其厂商6 图表3:推理大模型易错题6 图表4:推理大模型易错题回答情况6 图表5:问题1o1回答文本7 图表6:问题1豆包回答文本7 图表7:问题2o1回答文本7 图表8:问题2DeepSeek回答文本7 图表9:问题3o1回答文本8 图表10:问题3QwenQwQ回答文本8 图表11:研报文本关键信息8 图表12:测评所用研报文本8 图表13:各模型回答总结10 图表14:各模型对研报标的看好程度的打分对比10 图表15:各模型对技术壁垒问题的判断11 图表16:各模型对政策影响问题的判断11 图表17:自上而下的人工智能ETF轮动策略构建框架11 图表18:ETF轮动因子表现11 图表19:ETF轮动策略净值走势12 图表20:ETF轮动策略主要指标12 图表21:ETF轮动策略近期表现12 图表22:ETF轮动策略最新持仓列表13 图表23:各大类高频因子近期在中证1000指数成分股的选股表现13 图表24:价格区间细分因子近期在中证1000指数成分股的收益表现14 图表25:价格区间细分因子最近一周在中证1000指成分股的收益表现14 图表26:价格区间因子净值曲线15 图表27:价格区间因子近期在中证1000指数成分股的收益表现15 图表28:量价背离细分因子近期在中证1000指数成分股的收益表现15 图表29:量价背离细分因子最近一周在中证1000指成分股的收益表现16 图表30:量价背离因子净值曲线16 图表31:量价背离因子近期在中证1000指数成分股的收益表现16 图表32:遗憾规避细分因子近期在中证1000指数成分股的收益表现17 图表33:遗憾规避细分因子最近一周在中证1000指数成分股的收益表现17 图表34:遗憾规避因子净值曲线18 图表35:遗憾规避因子近期在中证1000指数成分股的收益表现18 图表36:斜率凸性细分因子近期在中证800指数成分股的收益表现19 图表37:斜率凸性细分因子近期在中证800指数成分股的收益表现19 图表38:斜率凸性细分因子净值曲线19 图表39:斜率凸性细分因子近期在中证800指数成分股的收益表现20 图表40:高频“金”组合中证1000指数增强策略净值曲线20 图表41:高频“金”组合中证1000指数增强策略指标20 图表42:高频“金”组合中证1000指数增强策略近期表现21 图表43:高频&基本面共振组合中证1000指数增强策略净值曲线21 图表44:高频&基本面共振组合中证1000指数增强策略指标22 图表45:高频&基本面共振组合中证1000指数增强策略近期表现22 图表46:模型部分回答原文22 图表47:高频“金”组合中证1000指数增强本周持仓列表28 图表48:高频&基本面共振组合中证1000指数增强策略本周持仓列表29 一、ChatGPTo3模型最新发布,推理与编程能力大幅提升 OpenAI最新发布的ChatGPTo3是一个在人工智能领域具有重要意义的推理模型,它是o1模型的迭代版本。OpenAI跳过了“o2”的命名,以避免与英国电信运营商O2产生版权或商标冲突,直接采用了“o3”。o3系列包含两款重磅模型,即OpenAIo3(旗舰版本)和OpenAIo3mini(轻量级模型)。o3旗舰版本具备强大的性能表现,而o3mini更快、更便宜,主打性价比。 o3模型在性能上实现了大跃迁。根据OpenAI发布会内容,在SweepBenchVerified基准测试中,o3达到了约71.7%的准确率,比o1模型高出20%。在编码领域,o3在编程竞赛平台Codeforces上的得分可达2727,远超o1的1891分。在ARC-AGI基准测试中,o3得分高达87.5%(在高计算设置下),是o1在低设置下性能的三倍,显示了模型在高级问题 解决和推理方面的进步,这是实现人工通用智能(AGI)的关键要求之一。o3在推理和编程能力上都有显著提升。在解决数学问题方面,o3在FrontierMath测试中的表现超过了之前的高分,解决了25.2%的问题,而之前的高分约为2%。o3-mini预计将在1月底对外开放,而完整的o3模型将在之后发布。 图表1:ChatGPTo3在编程竞赛网站得分 来源:CodeForces,国金证券研究所 技术层面,o3引入了“deliberativealignment”新技术,这是一种防止有害输出的方法,通过将人类编写的安全指南嵌入到训练数据集中,直接教导推理型大型语言模型(LLM)文本,并在回答前让它们明确地推理这些规范。o3模型采用了测试时扩展(Test-timeScaling)的方法,这意味着在用户输入提示后,模型会使用更多的计算资源来进行推理。这种方法可能涉及到使用更多的计算机芯片、运行更强大的推理芯片,或者让芯片运行更长时间来产生答案。同时,o3模型通过自我事实检查来减少错误和幻觉,尽管它并不完 美,但推理组件可以减少错误 不过目前,O3尚未向普通用户开放,OpenAI计划先进行外部安全测试,正式发布预计要等到明年1月。然而,OpenAI在编程和数学领域的最新突破,再次推动了AI推理能力的发展,使其更加接近人类水平。在此,我们希望探讨一下,目前可用的大模型在推理能力方面已达到什么程度。 二、当前大模型推理能力有所不足,ChatGPTo3值得期待 OpenAI的O1模型是目前普通研究者能够获取到的知名度最高的推理大模型,而O1-mini则是其性价比更高的版本。GPT-4是OpenAI推出的最新通用大模型,备受关注。Google发布的实验性推理模型Gemini-2.0,以强大的推理能力著称,能够在响应时展示模型的思考过程,类似于OpenAI的O1模型,并支持深度可视化展示推理过程;其前代版本为Gemini-1.5。除此之外,中国科技公司研发的大模型如DeepSeek、QwenQwen、Kimi和豆 包等,也具备一定的推理能力,显示了中国在大模型研发领域的进步与潜力。 图表2:本文测评使用推理大模型及其厂商 模型名称 o1 o1-mini GPT-4 Gemini-2 DeepSeek Kimi 豆包 1.5 32B 厂商 OpenAI OpenAI OpenAI Google Google 深度求索(幻方) 阿里 月之暗面 字节跳动 Gemini-QwenQwQ- 来源:ChatGPT,Gemini,DeepSeek,Qwen,Kimi,豆包,国金证券研究所 图表3:推理大模型易错题 1.大模型易错推理题表现比较 这些大模型在一些经典推理题上表现优秀,这可能得益于这些题目出现在它们的语料库中。因此,本文特别挑选了6道易错的推理题,旨在测试它们的真实推理能力。 编号问题描述正确答案 彩虹岛上有不到100只独角兽,每只独角兽的颜色不是绿色就是黄色。每当午夜钟声响起的时候,一些 问题1 独角兽会改变颜色:昨天,黄色独角兽与绿色独角兽的数量之比为5:6;今天,黄色独角兽与绿色独角兽75 的数量之比为4:3。请问:半夜改变颜色的独角兽的最多可能有多少只? 问题2正10边形的各边所在直线将平面分成多少个部分?51 问题3一个农夫需要运两只鸡过河,一次可以运一人加两只动物,最少