To Use or not to Use Muon: How Simplicity Bias in Optimizers Matters

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

To Use or not to Use Muon: How Simplicity Bias in Optimizers Matters

[ICLR 2026 预研] 快就是好吗？深挖 Muon 优化器丢失的“简单性偏向”

总结

问题

方法

结果

要点

摘要

本文批判性地分析了新兴的高性能优化器 Muon，指出了其在提供极速收敛的同时所付出的代价。通过理论推导 Spectral GD 的动力学，揭示了 Muon 由于消除了 SGD 原有的“简单性偏向”（Simplicity Bias），在处理多任务表示学习和防止虚假相关特征方面表现劣势。

TL;DR

Muon 近期因其在 nanoGPT 训练中的恐怖提速而成为工业界的“新宠”，甚至被誉为下一代默认优化器。然而，本研究泼了一盆冷水：Muon 之所以快，是因为它通过正交化（Orthogonalization）无差别地“贪婪”学习所有特征层级。相比之下，传统的 SGD 虽然慢，却拥有按结构复杂度逐步学习的简单性偏向 (Simplicity Bias)。在需要抽象共享结构或对抗虚假相关（Spurious Correlations）的任务中，Muon 的表现可能远逊于 SGD。

痛点深挖：速度与偏置的权衡

在深度学习的坐标系中，我们往往只看收敛速度。但作者指出，优化器不仅决定了你何时到达终点，还决定了你走哪条路。

Prior Work (SGD)：在损失平面上会经历“从鞍点到鞍点”的缓慢攀爬，它倾向于先学到低秩（Low-rank）的简单模型。
The Problem：Muon 这种基于奇异值分解（SVD）的优化器，会强行让所有非零奇异值的步长对齐，从而跳过了这些有助于泛化的“发育阶段”。

方法论详解：Spectral GD 的动力学直觉

为了量化分析，作者引入了 Spectral GD（Muon 的数学简化版）。

1. 轨迹偏向对比

在 2 层线性网络中，SGD 遵循逻辑斯谛曲线，收敛时间与 singular values 的倒数 $s_{k}^{- 1}$ 相关，这意味着大成分先学，小成分后学。而 Spectral GD 遵循二次曲线，且所有奇异成分几乎同时启动学习。

模型架构与动力学对比 图 1：左侧 SGD 展示了清晰的阶梯式 rank 增长（简单到复杂）；右侧 Spectral GD 则是“大乱炖”，各维度齐头并进。

2. 公式背后的物理含义

Muon 的更新量 $Δ W$ 在算子范数约束下最小化梯度投影：

abla_W L, \Delta W \rangle ext{ s.t. } \|\Delta W\|_{Op} < \eta$$ 这正是其“神迹”来源：它不关梯度的模长大小，强行让每个奇异方向都走一样的步长。这种“大锅饭”机制让收敛极快，但也让模型失去了筛选核心特征的嗅觉。 ## 实验与结果：Muon 的“滑铁铁卢” ### 实验 A：失败的共享表示（Shared Representations） 在路由任务中，模型需要从多源数据中抽象出通用的数学逻辑。 * **SGD 战绩**：成功发现底层 Rank=4 的结构，即使从未见过的输入-输出配对，也能泛化成功。 * **Muon 表现**：完美收敛（损失归零），但测试集全线崩溃。因为它通过高秩矩阵“死记硬背”了训练对，完全没有提取出通用的 Representation。 ![实验结果对比](https://cdn.atominnolab.com/wisdoc/jobs/20260304-afaa1de1-7ae6-44d2-bbd9-6498ae3c24fc/page_005_block_004.png) *图 2：SGD 学到了清晰的对角结构，而 Muon 的结果充满了混乱的噪点。* ### 实验 B：虚假特征（Spurious Features） 在 MNIST 实验中，作者加入了一个与标签强相关的像素噪声。 * **Insight**：SGD 会先学习数字形状（主导特征），长期保持高泛化性，直到训练后期才慢慢学到像素噪声； * **Muon/Adam**：几乎在学习数字内容的同时就“逮住”了虚假像素，导致其对分布偏移（OOD）极度脆弱。 ## 深度洞察：我们是否过度迷信速度？ 本文的价值在于它打破了“收敛越快越好”的迷思。 **核心启发：** 1. **Inductive Bias 决定生命上限**：优化器的步进机制本质上是对模型空间的搜索限制（Regularization）。Muon 的正交化本质上是一种“贪婪算法”。 2. **未来方向**：我们可能需要一种既能通过二阶信息（如 Newton-Schulz）加速，又能保留 SGD “阶梯式学习”特性的**混合优化器**。 3. **应用警示**：如果你的任务涉及复杂的推理、跨领域迁移，或者数据中存在大量的系统偏差，请慎用 Muon。 **总结 (Takeaway)**：Muon 依然是一个伟大的工程创新，但它更像是一个为了“刷榜速度”而生的工具。真正的 AGI 可能需要 SGD 那种“大智若愚”的缓慢。

发现相似论文

试试这些示例

查找最近其他探讨深度学习优化器隐式偏差（Implicit Bias）及其对模型泛化能力影响的研究论文。
哪篇论文最早通过深层线性网络（Deep Linear Networks）理论化地描述了 SGD 的简单性偏向，本文在此基础上做了什么样的扩展？
有哪些研究尝试针对 Muon 的缺点进行改进，以实现在保持高收敛速度的同时保留 SGD 的逐步 Rank 增长特性？

[ICLR 2026 预研] 快就是好吗？深挖 Muon 优化器丢失的“简单性偏向”

1. TL;DR

2. 痛点深挖：速度与偏置的权衡

3. 方法论详解：Spectral GD 的动力学直觉

3.1. 1. 轨迹偏向对比

3.2. 2. 公式背后的物理含义

4. 实验与结果：Muon 的“滑铁铁卢”

4.1. 实验 A：失败的共享表示（Shared Representations）

4.2. 实验 B：虚假特征（Spurious Features）

5. 深度洞察：我们是否过度迷信速度？