本文探讨了金融波动率预测中的“预测等效性”现象,提出即使不同架构(MLP, CNN, LSTM, Transformer)与优化器(SGD, Adam, Muon)组合在测试集损失(NMSE)上完全一致,其学习到的函数特征也存在显著差异。研究表明,优化器作为隐式先验,决定了模型的非线性响应和时间依赖性。
TL;DR
在金融波动率预测中,我们经常发现复杂的 Transformer 和简单的线性回归在测试损失上难分伯仲。本文揭示了一个惊人的事实:即使两个模型具有完全相同的测试误差,它们学习到的预测函数也可能大相径庭。优化器的选择(Adam vs SGD)实际上扮演了“隐式先验”的角色,直接决定了你的交易策略是频繁换手还是稳健持仓。
背景定位:金融 AI 的“罗生门”困境
在视觉或语言领域,模型性能通常有明确的梯队。但在金融领域,由于信噪比极低,研究者常陷入“排行榜僵局”:无论你怎么调优架构,NMSE(归一化均方误差)似乎总是在某个阈值附近徘徊。这种现象被称为欠指定(Underspecification)。当数据无法告诉我们哪个模型更好时,隐藏在模型背后的“推手”——优化器,开始悄悄发力。
痛点与动机:指标相同就代表模型等价吗?
传统的模型选择逻辑是:谁的 Loss 低,谁就是 SOTA。但作者质疑,这种基于标量的评估忽略了模型的功能性差异(Functional Divergence)。如果两个模型对同一个波动率冲击(Shock)的反应不同,哪怕它们平均预测误差一致,在实际回测中表现也会完全不同。
方法论详解:拆解优化器的“性格”
为了看透黑盒,作者使用了脉冲响应分析 (Impulse Response Analysis):给模型输入一个单一的波动率冲击,观察输出如何变化。
1. 架构与优化器的协同作用
作者测试了 MLP、CNN、LSTM 和 Transformer 配合 Adam、SGD 和 Muon 等优化器。结果发现:
- SGD 倾向于“简单”:它生成的响应表面非常平坦,几乎像是一个线性模型。
- 自适应优化器 (Adam/Muon) 倾向于“复杂”:它们能捕捉到 sigmoidal 形状的非线性响应,学会了如何“抑制”极端的波动。
2. 核心架构图:函数差异的可视化
图 1: LSTM 在 Muon 优化器下的响应表面,展示了清晰的非线性敏感度。
3. 机制探究:稳定性边缘 (Edge of Stability)
作者发现,Adam 能够通过预处理(Preconditioning)进入那些 SGD 无法触达的“尖锐区域”。这些区域对应于更复杂的函数表示。通过切换优化器的实验,作者证明了这种差异是动态吸引子导致的:如果你把 Adam 训练好的模型交给 SGD 继续练,函数会迅速“塌陷”回简单的线性状态。
实验与结果:从 Loss 到财富
实验在 S&P 500 成分股(2000-2024)上进行,结果令人深思:
- 预测等效性:如表 1 所示,所有深度模型的 NMSE 都在 0.575 左右,甚至不能显著击败简单的 OLS 回归。
- 决策差异性:当这些预测被用于构建低波动率组合时(图 8),Adam 型模型诱导的换手率是 SGD 型模型的 3 倍。这意味着,虽然“纸面”收益(Sharpe Ratio)差不多,但 Adam 模型在实际交易中会被手续费吞掉更多利润。
图 8: 在相似的夏普比率下,优化器导致了垂直分布的换手率边界。
深度洞察:在欠指定中寻找“对”的偏置
本文最大的启示在于:在金融 AI 中,优化器就是模型的一部分。当你面对两个 Loss 相同的模型时,不要随机选择。
- 如果你追求策略稳定性:SGD 可能更适合,因为它内置了“简单性偏置”。
- 如果你想要捕获非线性 Alpha:Adam/Muon 提供了更丰富的函数空间,但需警惕过高的换手。
局限性与展望
虽然本文证明了优化器作为隐式先验的存在,但尚未给出一个通用的理论来预测特定优化器在所有金融任务下的表现。未来的研究可能会聚焦于如何通过专门设计的正则化项,直接在 Rashomon Set(等效模型集合)中定向搜索符合特定经济目标(如低换手)的函数模型。
总结一句话:当排行榜打平时,请检查你的优化器,因为它正在替你做决定。
