WisPaper
WisPaper
学术搜索
学术问答
价格
TrueCite
[arXiv 2026] HiFloat4:华为昇腾 NPU 上的 4-bit 大模型预训练新纪元
总结
问题
方法
结果
要点
摘要

本文针对华为昇腾(Ascend)NPU 硬件架构,深入研究了超低精度 FP4 预训练技术。核心贡献是系统评估了 HiFloat4 (HiF4) 这种新型 4 位浮点格式,在 Pangu、Llama3 及 Qwen3-MoE 等大模型上实现了高达 90% 的计算与存储 FP4 化,且 loss 偏差控制在 BF16 基线 1% 左右。

TL;DR

随着大语言模型(LLM)进入万亿参数时代,算力能耗已成为不可逾越的鸿沟。华为团队在最新的研究中证明,通过名为 HiFloat4 (HiF4) 的分层 4 位浮点格式,可以在昇腾 NPU 上实现约 90% 的训练计算全 FP4 化。相比主流的 MXFP4 格式,HiF4 在 Llama3 和 MoE 架构上展现出了极佳的数值稳定性,将精度损失控制在 1% 以内,同时大幅降低了显存压力。

核心动机:FP4 训练的“不可能三角”

在深度学习预训练中,追求极低比特(Low-bit)量化往往面临三个矛盾:数值动态范围、表示精度以及硬件计算效率

  • MXFP4 依赖 32 元素的块缩放,但在处理某些具有长尾分布的梯度(Outliers)时,容易产生严重的截断误差或精度坍塌。
  • NVFP4 虽然在 NVIDIA Blackwell 架构上表现强劲,但其复杂的小块缩放逻辑在特定 ASIC 或 NPU 上可能带来额外的元数据管理开销。
  • 软件补丁开销:为了让 FP4 跑通,前人通常加入随机舍入(SR)、随机 Hadamard 变换(RHT)和各种 Truncation-free 方案。这些操作往往在 FP16/FP32 下进行,如果处理不当,会产生严重的“低精度计算,高精度补丁”的性能折损。

技术深潜:HiFloat4 的分层缩放魔法

HiF4 格式的设计直觉在于:利用硬件原生的分层元数据来模拟更宽的动态范围

HiF4 架构与 GEMM 流程

1. 三级分层缩放 (Hierarchical Scaling)

HiF4 将 64 个元素组成一个大块。与 MXFP4 简单的全局缩放不同,HiF4 采用了:

  • L1 级:8-bit E6M2 指数位,提供粗粒度的全局基准。
  • L2/L3 级:引入 1-bit 的微指数(Micro-exponents),针对块内的 8 路或 16 路子模块进行微调。 这种设计允许在同一个 64 元素块内,既能照顾到极大的异常值(Outliers),也能保留小值的精度,其 amortized 过载仅为 0.5 bit/value。

2. 稳定化组合拳:RHT 与 SR

在反向传播计算权重梯度 时,由于梯度波动剧烈,极易溢出。

  • RHT (Random Hadamard Transform):通过正交变换将张量能量均匀化,打破离群值的垄断,使得量化误差更均匀。
  • SR (Stochastic Rounding):HiF4 在 HiF4 下的表现非常有趣——实验发现 HiF4 甚至不需要 SR 即可稳定收敛,而 MXFP4 则必须依赖 SR 来抵消由于 nearest rounding 带来的系统偏差。

实验战果:MoE 模型的极致压缩

作者在 OpenPangu-1B、Llama3-8B 和 Qwen3-MoE-30B 上进行了 50B Tokens 的严苛测试。

实验结果对比

  • 性能表现:在 30B 规模的 MoE 模型中,HiF4 的 Loss 曲线几乎与 BF16 基线重合,相对误差仅为 0.88%
  • 存储优势:在 MoE 架构中,由于激活的专家仅占一小部分,高达 95.9% 的线性层参数成功转为 FP4 存储,极大地缓解了集群通讯与显存带宽压力。
  • 消融研究:如下表所示,HiF4 在“纯净”模式(Pure FP4)下的表现远好于 MXFP4,证明了其数值格式设计的优越性。

| 策略 (Relative Error) | HiF4 | MXFP4 | | :--- | :--- | :--- | | Pure FP4 | 1.11% | 3.85% | | + RHT | 0.97% | 2.06% | | + SR + RHT + TF | - | 1.42% |

资深主编点评

这篇论文的价值在于它不仅是一个算法的进步,更是 Hardware-Algorithm Co-design(硬软协同设计) 的典范。它告诉我们:

  1. 格式胜于算法:一个设计良好的数值格式(如 HiF4 的分层缩放)可以省掉大量的软件稳定化操作,从而在昇腾 NPU 这种强调 Cube Unit 吞吐、对标特定指令集的硬件上获得真正的 Speedup。
  2. MoE 是 FP4 的主战场:MoE 模型天然的稀疏性使得 FP4 带来的存储红利被放大,而由于计算路径的动态性,对格式的稳定性要求也更高,HiF4 恰好填补了这一空白。

局限性与展望:目前实验主要集中在 50B Pre-training,但在超长上下文(Long-context)以及对偏置(Bias)极其敏感的 RLHF 阶段,FP4 的表现仍需验证。昇腾 NPU 未来若能完全释放 HiF4 的硬件级指令潜力,将极大地改变大模型训练的成本版图。

发现相似论文

试试这些示例

  • 查找最近关于大语言模型在低精度分布式训练中(如 FP4/FP6)处理渐进式量化偏差的优化方法。
  • 哪篇论文最早提出了 Microscaling (MX) 数据格式的基本规范,本文的 HiFloat4 在分层架构上做了哪些具体改进?
  • 探究在大模型对齐阶段(如 RLHF 或 GRPO 算法)应用 FP4 精度训练可能面临的数值稳定性挑战及相关研究。
目录
[arXiv 2026] HiFloat4:华为昇腾 NPU 上的 4-bit 大模型预训练新纪元
1. TL;DR
2. 核心动机:FP4 训练的“不可能三角”
3. 技术深潜:HiFloat4 的分层缩放魔法
3.1. 1. 三级分层缩放 (Hierarchical Scaling)
3.2. 2. 稳定化组合拳:RHT 与 SR
4. 实验战果:MoE 模型的极致压缩
5. 资深主编点评