Nora: Normalized Orthogonal Row Alignment for Scalable Matrix Optimizer

WisPaper

学术搜索

学术问答

价格

TrueCite

工作空间

Home

Blog

Nora: Normalized Orthogonal Row Alignment for Scalable Matrix Optimizer

Nora：归一化正交行对齐，打造 LLM 训练的“极速”矩阵优化器

总结

问题

方法

结果

要点

摘要

本文提出了 Nora，一种针对大语言模型（LLM）训练设计的矩阵优化器。该方法通过将动量投影到权重的行正交补空间并进行行归一化，实现了类 Muon 的预处理效果，同时严格遵循神经网络的尺度不变性（Scale-invariance）。

TL;DR

在 LLM 训练领域，追求极致的数据效率已成为共识，Muon 等矩阵优化器虽强但计算昂贵。本文介绍的 Nora (Normalized Orthogonal Row Alignment) 优化器，通过简洁的行向投影与归一化，在保持 $O (mn)$ 线性复杂度的同时，完美解决了训练稳定性与尺度不变性（Scale-invariance）的问题。实验表明，Nora 不仅在最终收敛指标（Loss/PPL）上超越了 Muon 和 RMNP，其运行速度更是比 Muon 快了数十倍。

背景定位：为何现有的矩阵优化器不够理想？

现代神经网络广泛使用归一化层（RMSNorm/LayerNorm），这使得模型权重具备尺度不变性——即权重的模长变化不会改变输出函数，有效的学习其实是发生在一个球面或流形上的“角度运动”。

目前的矩阵优化器存在显著缺陷：

Muon：依赖 Newton-Schulz 迭代进行正交化，计算耗时巨大（ $O (m^{2} n)$ ），难以在大规模 MLP 层中扩展。
RMNP：虽然通过简单的行归一化加速了预处理，但它忽略了径向（Radial）噪声，导致权重模长剧烈震荡，破坏了有效学习率。

Nora 的核心直觉在于：既然只有角度运动才对 Loss 有贡献，我们干脆把所有不在切空间内的更新分量全部裁掉，并且利用 Hessian 矩阵的结构特性来极速近似预处理。

核心算法：两行代码的几何美学

Nora 的设计遵循三个核心原则：效率（效率预处理）、稳定性（尺度不变性）和速度（低复杂度）。

1. 投影（Stability）

首先，将动量 $v_{t}$ 投影到与权重 $w_{t}$ 行向垂直的空间： $v_{t}^{r ⊥} = v_{t} - e x t p r o j_{w_{t}} (v_{t})$ 这一步过滤掉了无效的径向噪声，确保更新不会引起权重模长的无序膨胀。

2. 预处理与归一化（Efficiency & Speed）

利用 Transformer Hessian 矩阵具有“行块对角占优”的先验知识，Nora 证明了复杂的矩阵预处理在数学上可以等价简化为简单的行归一化（Row Normalization）： $d_{t} = \frac{v _{t}^{r ⊥}}{∥ v _{t}^{r ⊥} ∥ _{2}}$

模型架构与物理逻辑流程 (上图展示了 Nora 如何通过行投影保持更新方向与权重的正交性)

实验结果：速度与质量的双重飞跃

1. 更好的收敛曲线

在 135M 模型的训练中，Nora 在训练后期展现出了明显的后发优势。相比 Muon 和 Mano，Nora 的 Loss 下降更加平滑且最终达到的水平更低。

135M 训练曲线对比

2. 压倒性的运行速度

在 1B 规模模型的测试中，Muon 的 Newton-Schulz 迭代成为了显著的瓶颈，而 Nora 维持了极低的计算开销。在某些层中，Nora 的效率比 Muon 提升了 73 倍。

| 模型规模 | 代表层类型 | Nora 行归一化耗时 (ms) | NS(5) 耗时 (ms) | 速度提升倍数 | | :--- | :--- | :--- | :--- | :--- | | 1B | MLP (intermediate × hidden) | 0.0985 | 6.9985 | 71.02× | | 1B | MLP (hidden × intermediate) | 0.1084 | 7.9678 | 73.51× |

理论支柱：从数学到扩展定律

Nora 不仅仅是一个工程 Trick。作者基于 Maximal Update Parametrization (µP) 框架，严谨地论证了 Nora 的学习率缩放法则（Scaling Law）：

结论：为了保持激活值的更新强度在模型宽度 $n$ 增加时保持稳定，Nora 的学习率应遵循 $η_{t} \propto 1/ n$ 的缩放规律。
收敛保证：论文在非凸环境下证明了 Nora 的收敛性，并指出了行正交投影算子的非扩张性。

深度洞察与总结

Nora 的成功揭示了：在高维神经网络训练中，尊重参数空间的几何几何结构往往比使用复杂的数学迭代更有效。

Takeaways for Practitioners:

即插即用：Nora 仅需两行代码即可集成到现有训练流程。
无需权重衰减：实验中 Nora 即使在 Weight Decay = 0 的情况下依然表现稳健。
局限性：目前的实验主要集中在 1B 以下规模，更大规模（7B, 70B）上的稳定性仍待进一步验证。

总的来说，Nora 是目前 matrix-based 优化器路线中一个极具竞争力的选手，它用最简单的行列对齐操作，实现了比肩甚至超越复杂二阶优化器的性能。

发现相似论文

试试这些示例

查找最近其他利用 Transformer 的 Hessian 矩阵行块对角占优（Row Block Diagonal Dominance）特性改进优化器的论文。
哪篇论文最早在深度神经网络中讨论了训练更新的尺度不变性（Scale-invariance）与权重空间对称性，本文提出的正交投影是如何在数学上与之契合的？
有哪些研究探讨了将 Nora 这种基于行向正交对齐的优化方法应用到视觉 Transformer (ViT) 或扩散模型 (Diffusion Models) 的训练中？

Nora：归一化正交行对齐，打造 LLM 训练的“极速”矩阵优化器

1. TL;DR

2. 背景定位：为何现有的矩阵优化器不够理想？

3. 核心算法：两行代码的几何美学

3.1. 1. 投影（Stability）

3.2. 2. 预处理与归一化（Efficiency & Speed）

4. 实验结果：速度与质量的双重飞跃

4.1. 1. 更好的收敛曲线

4.2. 2. 压倒性的运行速度

5. 理论支柱：从数学到扩展定律

6. 深度洞察与总结