2023DataFunCon 时序预测算法在蔚来汽车的应用探索 演讲人:后士浩—蔚来汽车—高级算法工程师 Contents 目录 业务背景关键挑战算法实践总结展望 01业务背景 蔚来汽车简介 蔚来汽车成立于2014年11月,是高端智能电动汽车市场的先驱及领跑者。蔚来的使命是创造愉悦的生活方式。蔚来旨在打造一个以智能电动汽车为起点的社区,与用户分享欢乐、共同成长。蔚来的产品组合包括六座智能电动旗舰SUVES8、中大型五座智能电动SUVES7(或EL7)、五座全场景智能电动SUVES6、五座智能电动旗舰轿跑SUVEC7、五座智能电动轿跑SUVEC6、智能电动旗舰轿车ET7及中型智能电动轿车ET5。 时序预测背景 时域(temporaldomain):序列随时间的变化 频域(frequencydomain):序列频率的变化 周期:重复的上升、下降过程,从哪来回哪去 季节性:固定频率的上升、下降,多为先验因素 趋势:长期保持增长或者下降 谱密度:信号由少数主频叠加而成 换电站需求预测 https://chargermap.nio.com/ 常见任务 按照输入变量数量划分,包括: 单变量:单个变量 多变量:至少两个变量 按照输出序列长度划分,包括: 单输出:预测长度等于1 多输出:预测长度大于1 按照输出序列时间跨度划分,包括: 短期预测 中期预测 长期预测应用场景 新站选址 错峰充电 电池调度业务需求 短期预测:预测未来24小时的单量 中期预测:预测未来30天的单量 长期预测:预测未来12个月的单量算法任务 多变量—多输出的短期预测 多变量—多输出的中期预测 多变量—多输出的长期预测 02关键挑战 关键挑战 �𝑋,𝑋� 𝑥,� 多序列的复杂季节性 不同换电站的序列不同 ABC 序列间的季节性不一致 标记数据 ABC 时间特征的漂移 节假日时间不固定 2021 2022 2023 �� 预测具有时间先验 标记数据 𝑥,� 增长与竞争 电区房用户增长 换电站间的竞争 03算法实践 服务 统计组件 MAX AVG MIN 组合 模型组件 算法部署平台(ServableAPIs) temporal positional value token Embedding引擎 DCN Informer CRNN TCN 深度学习模型 DQN SVM GBDT LR 机器学习模型 ARIMA Prophet LGB 特征引擎 相关变量 分布性 周期性 模型 特征 数据仓库 属性数据 订单数据 用户数据 天气数据 车辆数据 运营数据 数据 ARIMAProphetLGB 优点: 简单易行,可解释性强 数据量要求低 计算速度较快,可以对每个站在线拟合推理 优点: 简单易行,可解释性强 数据量要求低 计算速度更快,可以对每个站在线拟合推理 优点: 准确率较高; 简单易行,可解释性强; 支持批量预测,计算速度更快; 缺点: 缺点: 缺点: 仅支持单变量 仅支持单变量 迭代模型等于迭代特征, 无法特征工程 无法特征工程 迭代特征存在瓶颈; 准确率低 准确率较低 对类别特征利用不充分; 适用场景: 项目初期冷启动 适用场景: 项目初期迭代 适用场景: 项目中期迭代 统一的架构(unifiedarchitecture):所有的CNNs、RNNs和Transformers都是生成模型 输入数据 Embedding引擎 编码器解码器 输出数据 TCN模型的编码器和解码器是1D卷积网络 CRNN模型的编码器和解码器是1D卷积网络和RNN网络 Informer模型的编码器和解码器是Transformer网络 DCN模型的编码器和解码器是2D卷积网络 时间相关变量 其它相关变量 + TemporalEmbedding PositionalEmbedding ValueEmbedding 特征向量 TokenEmbedding 属性变量 Embedding引擎 TokenEmbedding 如何解决多序列问题? Token常见于自然语言处理,Token就是“词”的数字化表示,此处也需要token表达属性变量。 A 城区站一代站 商场 TokenEmbedding A B 城际站二代站 服务区 B C 城区站三代站景点 C 标准续航 长续航 5km 站数量 总单量 标准续航 长续航 10km 站数量 总单量 ValueEmbedding如何解决竞争与增长问题? ValueEmbedding 竞争与增长是容易被忽视的相关变量,我们需要从单站维度考虑区域维度。 标准续航 长续航 3km 站数量 总单量 PositionalEmbedding如何解决复杂季节性问题? PositionalEmbedding 标记不同序列在不同季节性下的变化位置,这里和transformer的PE方法相同。 A B C TemporalEmbedding 小时 天 阳历 周 月 年 2021 小时 天 农历 周 月 年 2022 2023 �� 标记数据 𝑥,� 输入时间数据预测时间数据 𝑥,� 输入时间数据 �𝑋,𝑋� 标记数据 虽然预测时间数据已知,但是其它相关变量未知,输入数据维度不一致,怎么处理? 输入时间变量 �𝑋,𝑋� 输入其它变量(实际+填充) 输出预测变量 假设输入序列长度等于L,第i个卷积层的卷积核大小等于2i+1,步长等于1,需要多少卷积层? 因果卷积(CausalConvolution,CC):保证序列的时间因果关系 卷积层序号 卷积核大小 感受野 1 3 3 2 5 7 3 7 13 … … … 3rd卷积层 2nd卷积层1st卷积层 输入数据 远 近 时间线 感受野(ReceptiveField,RF):保证卷积神经网络可以看到这么远 3rd卷积层 2nd卷积层 𝑅�=𝑛++�+1 𝑅�≥� 1st卷积层 输入数据 � 远近 时间线 �=𝑐𝑒𝑖� 现在我们已经知道卷积神经网络应该有多少层,那么层与层之间应该怎么连接? 子模块卷积模块 加法还是减法? 分类还是回归? 向上、向下还是躺平? 模型 MAE MAPE ARIMA 7.81 41.23% Prophet 7.06 33.65% LGB 5.12 26.33% TCN 5.21 26.74% CRNN 4.88 27.28% Informer 4.63 23.17% DCN 4.52 23.12% LGB模型对节假日过拟合,且不利于处理节假日预测; Informer模型对长序列的季节性表现不佳,但DCN模型可以通过对齐时变变量,有利于处理节假日预测; 04总结展望 更快 实时化 高效化 更好 纵向追求算法卓越 横向追求功能完善 更有价值 数字化赋能 开源共创 未来计划 2023DataFunCon —THANKS— 感谢您的观看 演讲人:后士浩—蔚来汽车—高级算法工程师