WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[ICLR 2026 预研] 快就是好吗?深挖 Muon 优化器丢失的“简单性偏向”
总结
问题
方法
结果
要点
摘要

本文批判性地分析了新兴的高性能优化器 Muon,指出了其在提供极速收敛的同时所付出的代价。通过理论推导 Spectral GD 的动力学,揭示了 Muon 由于消除了 SGD 原有的“简单性偏向”(Simplicity Bias),在处理多任务表示学习和防止虚假相关特征方面表现劣势。

TL;DR

Muon 近期因其在 nanoGPT 训练中的恐怖提速而成为工业界的“新宠”,甚至被誉为下一代默认优化器。然而,本研究泼了一盆冷水:Muon 之所以快,是因为它通过正交化(Orthogonalization)无差别地“贪婪”学习所有特征层级。相比之下,传统的 SGD 虽然慢,却拥有按结构复杂度逐步学习的简单性偏向 (Simplicity Bias)。在需要抽象共享结构或对抗虚假相关(Spurious Correlations)的任务中,Muon 的表现可能远逊于 SGD。

痛点深挖:速度与偏置的权衡

在深度学习的坐标系中,我们往往只看收敛速度。但作者指出,优化器不仅决定了你何时到达终点,还决定了你走哪条路

  • Prior Work (SGD):在损失平面上会经历“从鞍点到鞍点”的缓慢攀爬,它倾向于先学到低秩(Low-rank)的简单模型。
  • The Problem:Muon 这种基于奇异值分解(SVD)的优化器,会强行让所有非零奇异值的步长对齐,从而跳过了这些有助于泛化的“发育阶段”。

方法论详解:Spectral GD 的动力学直觉

为了量化分析,作者引入了 Spectral GD(Muon 的数学简化版)。

1. 轨迹偏向对比

在 2 层线性网络中,SGD 遵循逻辑斯谛曲线,收敛时间与 singular values 的倒数 相关,这意味着大成分先学,小成分后学。 而 Spectral GD 遵循二次曲线,且所有奇异成分几乎同时启动学习。

模型架构与动力学对比 图 1:左侧 SGD 展示了清晰的阶梯式 rank 增长(简单到复杂);右侧 Spectral GD 则是“大乱炖”,各维度齐头并进。

2. 公式背后的物理含义

Muon 的更新量 在算子范数约束下最小化梯度投影:

abla_W L, \Delta W \rangle ext{ s.t. } \|\Delta W\|_{Op} < \eta$$ 这正是其“神迹”来源:它不关梯度的模长大小,强行让每个奇异方向都走一样的步长。这种“大锅饭”机制让收敛极快,但也让模型失去了筛选核心特征的嗅觉。 ## 实验与结果:Muon 的“滑铁铁卢” ### 实验 A:失败的共享表示(Shared Representations) 在路由任务中,模型需要从多源数据中抽象出通用的数学逻辑。 * **SGD 战绩**:成功发现底层 Rank=4 的结构,即使从未见过的输入-输出配对,也能泛化成功。 * **Muon 表现**:完美收敛(损失归零),但测试集全线崩溃。因为它通过高秩矩阵“死记硬背”了训练对,完全没有提取出通用的 Representation。 ![实验结果对比](https://cdn.atominnolab.com/wisdoc/jobs/20260304-afaa1de1-7ae6-44d2-bbd9-6498ae3c24fc/page_005_block_004.png) *图 2:SGD 学到了清晰的对角结构,而 Muon 的结果充满了混乱的噪点。* ### 实验 B:虚假特征(Spurious Features) 在 MNIST 实验中,作者加入了一个与标签强相关的像素噪声。 * **Insight**:SGD 会先学习数字形状(主导特征),长期保持高泛化性,直到训练后期才慢慢学到像素噪声; * **Muon/Adam**:几乎在学习数字内容的同时就“逮住”了虚假像素,导致其对分布偏移(OOD)极度脆弱。 ## 深度洞察:我们是否过度迷信速度? 本文的价值在于它打破了“收敛越快越好”的迷思。 **核心启发:** 1. **Inductive Bias 决定生命上限**:优化器的步进机制本质上是对模型空间的搜索限制(Regularization)。Muon 的正交化本质上是一种“贪婪算法”。 2. **未来方向**:我们可能需要一种既能通过二阶信息(如 Newton-Schulz)加速,又能保留 SGD “阶梯式学习”特性的**混合优化器**。 3. **应用警示**:如果你的任务涉及复杂的推理、跨领域迁移,或者数据中存在大量的系统偏差,请慎用 Muon。 **总结 (Takeaway)**:Muon 依然是一个伟大的工程创新,但它更像是一个为了“刷榜速度”而生的工具。真正的 AGI 可能需要 SGD 那种“大智若愚”的缓慢。

发现相似论文

试试这些示例

  • 查找最近其他探讨深度学习优化器隐式偏差(Implicit Bias)及其对模型泛化能力影响的研究论文。
  • 哪篇论文最早通过深层线性网络(Deep Linear Networks)理论化地描述了 SGD 的简单性偏向,本文在此基础上做了什么样的扩展?
  • 有哪些研究尝试针对 Muon 的缺点进行改进,以实现在保持高收敛速度的同时保留 SGD 的逐步 Rank 增长特性?
目录
[ICLR 2026 预研] 快就是好吗?深挖 Muon 优化器丢失的“简单性偏向”
1. TL;DR
2. 痛点深挖:速度与偏置的权衡
3. 方法论详解:Spectral GD 的动力学直觉
3.1. 1. 轨迹偏向对比
3.2. 2. 公式背后的物理含义
4. 实验与结果:Muon 的“滑铁铁卢”
4.1. 实验 A:失败的共享表示(Shared Representations)
4.2. 实验 B:虚假特征(Spurious Features)
5. 深度洞察:我们是否过度迷信速度?