您的浏览器禁用了JavaScript(一种计算机语言,用以实现您与网页的交互),请解除该禁用,或者联系我们。[安信期货]:气象专题:气象因子模型预测2024年美豆单产及期权交易机会 - 发现报告
当前位置:首页/其他报告/报告详情/

气象专题:气象因子模型预测2024年美豆单产及期权交易机会

2024-09-13范丽军安信期货李***
气象专题:气象因子模型预测2024年美豆单产及期权交易机会

姓名范丽军 气象专题:气象因子模型预测2024年美豆单产 及期权交易机会 0 从业资格号F03097698投资咨询号Z00183362023年9月12日 结果展示:最小二乘回归法(OLS)预测2022年单产 1、我们模型预测2022年全美大豆单产为50.9蒲/英亩,而8月usda预测值是51.9蒲/英亩。根据模型结果,9月初的价格应该比八月中旬高不少。观察市场定价,在9月1、2日做多,等待12日USDA报告结果�炉。 2、2022年9月12日,USDA本月将美豆的单产数据调低至50.5蒲/英亩,低于8月预测的51.9蒲/英亩。次日,豆二跳涨4.61%。(usda同时下调了库存和收获面积)。 数据来源:国投安信期货 1 结果预测:三种方法预测2023年单产 OLS预测2023年全美大豆单产为:51.1蒲式耳/英亩huBer预测2023年全美大豆单产为:51.6 RANSACRegressor预测2023年全美大豆单产为:52.8 9月报告公布前市场预测50-51之间,9月报告预测值为50.1,低于预期,按照usda报告来看,应该偏强。但是豆二豆粕连续下跌。 数据来源:国投安信期货2 结果预测:三种方法预测2024年单产 OLS预测2024年全美大豆单产为:51.5蒲式耳/英亩huBer预测2024年全美大豆单产为:52.1 RANSACRegressor预测2024年全美大豆单产为:52.1 今年8月usda报告给�的预测是53.2,当前市场交易的预期在54左右。 根据模型结果,可以考虑使用期权布局豆二、豆粕做多机会。(买看涨或卖看跌) 3 数据来源:国投安信期货 交易机会:空豆二、豆粕1月合约 把握做多机会的期权单腿策略只有:买看涨和卖看跌。 期权买方是做多波动率,期权卖方是做空波动率。因此,选择买看涨或者卖看跌看跌时,在波动率维度需要对隐含波动率的走势有所判断。 4 对隐波的判断 1、隐波处于历史较低位置:9月11日收盘,豆粕期权隐波接近17%,在21年以来的数据中处于26分位数。 2、隐波在8月底以来随着行情的反弹有所上升,表现为正相关。根据我们的模型预测,利多豆粕。如果预测情景发生,期权隐波随着行情上涨同步上升的可能性较大。 综合以上两点,可以考虑买入平值或者虚值看涨期权。等周五USDA结果公布后平仓。 3,700 3,500 3,300 3,100 2,900 2,700 2024-01-02 2024-02-02 2024-03-02 2024-04-02 2024-05-02 2024-06-02 2024-07-02 2024-08-02 2024-09-02 2,500 豆粕指数与豆粕期权主力平值隐波走势 30% 25% 20% 15% 10% 豆粕指数豆粕期权主力平值隐波 5 单产模型建模流程: 数据 结果 方法 6 数据: 数据: 七八月累积温度(temperature):两个月的日内平均温度求和,再进行标准化(减去各州自己均值除以标准差) 七八月累积降水(precipitation):日降水求和再标准化。 因变量“各州单产”(Yield):对各州自己的单产时间序列标准化(减去均值再除以标准差)。产量标准化的目的在于是使不同地质条件,不同空间的州单产相互之间具有可比性。单产若不进行标准化,则可能会�现两个产区气候条件一样但单产不一样的情况。此情形下,将各州数据当作相同的样本进行拟合便会产生很大误差。 无论各州单产怎么处理(统一减去各自均值;减去均值再除以各自(最大值-最小值);上述标准化),温度因子回归效果都不显著。因此,剔除温度一次项仅保留温度平方项。 经过验证温度与降水乘积交叉项因子都不显著,也剔除。 7 2001 2002 2003 2004 2005 2006 2007 2008 2009 2010 2011 2012 2013 2014 2015 2016 2017 2018 2019 2020 2021 方法: 方法:研究一个因变量与一个或多个自变量间多项式的回归分析方法,称为多项式回归 (PolynomialRegression)。本文使用的二元多项式回归模型是线性回归模型的一种。 北美各州大豆单产有递增趋势 68.0 63.0 58.0 53.0 48.0 43.0 38.0 33.0 28.0 由于育种、化肥、田间管理水平、机械化水平、灌溉等因素的提高,作物单位面积产量有递增趋势。 爱荷华州 伊利诺伊州 印第安纳州 明尼苏达州 密苏里州 内布拉斯加州 俄亥俄州 8 方法: 因此,将作物的实际单产Y分解为趋势产量Yt(主要由社会生产力决定)、气象产量ΔY(主要由天气气候条件决定)和一些随机因素Error。 YYt Y Error 其中,趋势产量: Yt a1*year c1,其中year是标准化后的年份; 气象产量: Y a2* precipitation78a3* precipitation78^2a4*temperature^2c2 其中,precipitation78为降雨因子,temperature为温度因子。 将趋势产量和气象产量代入,令得: Ya1*year a2* precipitat ion78a3* precipitat ion78^2 a4*temperatur e^2 Errorc 9 方法:什么是多项式回归? 10 结果展示: 调整的R方:Adj.R-squard=0.534,这意味着模型可以解释55.3%的单产变化。 模型通过F检验(F=176.6,P=0.000<0.05),说明因子中至少有一项会对单产产生影响关系。因子P值最大0.027,说明每个因子都系数显著,变量是有效的。 Durbin-Watson值在2附近,说明模型不存在自相关性。 11 结果展示: 根据模型结果分别预测每个州的标准单产: Y0.6305*year 3034* precipitation788407* precipitation78^2 0.0477*temperature^2274.9820 单产与降雨关系 0.40 0.20 -2.20 -1.87 -1.55 -1.22 -0.89 -0.57 -0.24 0.08 0.41 0.74 1.06 1.39 1.72 2.04 2.37 2.69 3.02 3.35 3.67 4.00 0.00 -0.20 单产 -0.40 -0.60 -0.80 -1.00 -1.20 0.00 -0.10 -0.20 单产 -0.30 -0.40 -0.50 -0.60 -2.50 -2.22 -1.93 -1.65 -1.36 -1.08 -0.79 -0.51 -0.23 0.06 0.34 0.63 0.91 1.19 1.48 1.76 2.05 2.33 2.62 2.90 单产与温度关系 -1.40 标准化后的降雨 -0.70 标准化后的温度 预测全美单产:每个州的单产乘以面积权重再求和 2.00 单产 0.00 单产与年份(生产力提高)关系 -2.00 -2.50 -2.22 -1.93 -1.65 -1.36 -1.08 -0.79 -0.51 -0.23 0.06 0.34 0.63 0.91 1.19 1.48 1.76 2.05 2.33 2.62 2.90 标准化后的年份 12 结果展示:拟合值与真实值对比 数据来源:国投安信期货 模型检验--残差分析: 残差分布直方图与正太分布概率密度函数: 14 残差正态性检验-QQ图 残差Q-Q图考察的是实际百分位数与理论百分位数的差异。同理在此处,我们所假定的分布就是正态分布,如果数据样本是服从正态分布的话,那么实际的分布应该是相对一致的,反映在图形中就是数据点应该沿着图形的对角线分布。 1、对角线分布,且误差较大的分布在上下两侧。 2、其均值附近预测比较准确。 15 模型优化--岭回归--排除模型共线性隐患 1、Ridge通过对系数的大小施加惩罚来解决普通最小二乘的一些问题。岭系数最小化一个带惩罚项的残差平方和: 其中,α是控制收缩量的复杂性参数,值越大,收缩量越大,这样,系数对共线性的鲁棒性就更强了。注:此方法附带降低了目标函数对单一变量变化的敏感性。 huBer回归,alpha取0.0001 16 模型优化--RANSAC算法逻辑 RANSAC(RandomSampleConsensus)算法每次迭代都执行以下步骤: 1.从原始数据中随机选择min_samples个样本,并检查数据集是否有效(请参阅is_data_valid) 2.将模型拟合到随机子集上(base_estimator.fit),并检查估计的模型是否有效(请参阅is_model_valid) 3.通过计算模型的残差(base_estimator.predict(X)-y),如果样本绝对残差小于residual_threshold就会被认为是局内点。按照这种方式将数据分为局内点和离群点。 4.当内部的局内样本数达到最大时,模型达到最优就保存下来。 这些步骤最终要么执行到了最大次数(max_trials),要么满足了某一条件(请看stop_n_inliersandstop_score)而停止。最后的模型是使用之前确定的最佳模型的所有局内样本(一致性集合,consensusset)来估计的。 函数is_data_valid和is_model_valid可以识别�随机样本子集中的退化组合(degeneratecombinations)并予以丢弃(reject)。即便不需要考虑退化情况,也会使用is_data_valid,因为在拟合模型之前调用 它能得到更高的计算性能。 17 模型优化--鲁棒回归-RANSAC算法 2、剔除异常值--RANSAC回归简介 RANSAC(RandomSampleConsensus)算法通过排除训练数据集中的异常值,将线性回归算法提升到一个新的水平。 RANSAC是一种不确定的算法,它以一定概率产生一个合理的结果,而这还取决于迭代次数(见参数max_trials)它通常用于线性和非线性回归问题,在计算机视觉领域尤其流行。 训练数据集中异常值的存在确实会影响作为训练一部分学习的系数/参数。因此,建议在探索性数据分析阶段识别并移除异常值。有各种统计技术,例如Z分数、箱形图、其他类型的图、假设检验等,可用于从训练数据集中删除异常值。 18 模型优化--鲁棒回归-Huber算法 Huber回归 HuberRegressor与RANSACRegressor不同,因为它没有忽略离群值的影响,而是给予它们较小的权重。岭回归受离群值的影响很大,Huber与RANSACRegressor回归受离群值的影响较小。 随着Huber回归方程参数epsilon的增大,决策函数接近于岭回归。 19 总结: 标的 涨跌 时间 股息率 变化 期权价 格变化 变化 隐含 波动率变化 利率 变化 标的涨跌维度:气象模型提示做多 隐波维度:做隐波上升可能性更大一点。 期权策略:买入豆粕平值或者虚值看涨期权。 策略的升级:看涨牛市价差 20 21 谢谢! 免责声明 国投安信期货有限公司是经中国证监会批准设立的期货经营机构,已具备期货投资咨询业务资格。 本报告仅供国投安信期货有限公司(以下简称“本公司”)的机构或个人客户(以下简称“客户”)使用。本公司不会因接收人收到本报告而视其为客户。如接收人并非国投安信期货客户,请及时退回并删除。 本报告是基于本公司认为可靠的已公开信息,但本公司不保证该等信息的准确性或完整性。本报告所载的资料、意见及推测只提供给客户作参考之用。本报告所载的资料、意见及推测仅反映本公司